CN110119469A

CN110119469A - 一种面向暗网的数据采集与分析系统及方法

Info

Publication number: CN110119469A
Application number: CN201910427963.2A
Authority: CN
Inventors: 贾琼; 陈志浩; 常承伟; 刘滋润; 杨枭; 许明龙
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2019-05-22
Filing date: 2019-05-22
Publication date: 2019-08-13

Abstract

本发明涉及一种面向暗网的数据采集与分析系统及方法，涉及信息安全技术领域。本发明在暗网数据采集方面通过在tor网络中部署探测节点，结合已有的爬虫接入、域名获取技术及方法，可获取更多有效暗网地址，通过暗网数据分析，将获取的暗网数据，进行关联性分析、热点分析等，从而解决了暗网原始数据格式不统一、数据内容杂乱的问题，并通过翻译平台解决了暗网中小语种多的问题。

Description

一种面向暗网的数据采集与分析系统及方法

技术领域

本发明涉及信息安全技术领域，具体涉及一种面向暗网的数据采集与分析系统及方法。

背景技术

随着Internet的迅速发展，网络已经融入到军事、政治、经济、社会、日常生活等各个领域。方便人们生活的同时，随之而来的是网络犯罪、网络恐怖主义。数据显示，利用计算机网络实施犯罪的案件数量呈明显上升趋势，犯罪手段趋于智能化、专业化、隐蔽化。匿名网络的出现可有效保护互联网使用者的个人隐私，但同样为犯罪分子隐藏真实网络地址实施网络犯罪提供了便利。另一方面，暗网等匿名网络中包含大量价值价较高的信息，对个人学习、企业发展、案件侦破等有着重要的推动作用。

TOR作为一款主流的匿名网络，用户量超过1000万，在暗网中超过百分之七十的服务采用TOR网络。与表层网络中可以通过URL和域名解析服务器获得目标网站的IP地址不同，暗网中的服务器IP地址是不能够暴露的。暗网中有一个类似于DNS功能的分布式散列表，其中存储着一些站点的相关信息。在暗网中，想要建立一个网站，首先要随机选择几个介绍点(introductionpoint)，并与之建立电路，因此介绍点并不知道服务器的真实IP。然后服务器组合起一个描述符，里面包括了公钥和各个介绍点的摘要，然后用私钥签名，最后把描述符上传到前面提到的分布式散列表中，网站就建立好了。网站的域名就是一个从公钥中派生出的16位由字母和数字组成的字符串，通常采用顶级域名.onion，形如：3p5otzxxnvs3caxax.onion，域名生成方法如下：

H＝H(public-key)，其中public-key为暗网服务的公钥，H(public-key)为对公钥进行sha1计算；

H＝取(1)结果的前10个字节；

对h进行base32编码，得到16位字符串。

区别于明网情报数据采集，暗网数据采集的难点在于1、爬虫引擎如何接入TOR网络，2、爬虫如何获取更多有效地址。已有的做法是将传统的Scrapy爬虫框架接入HTTP代理服务器，利用代理服务器接入TOR网络，在获取暗网地址方面，一般有以下几种方式：

利用明网爬虫，采集明网中社交平台、论坛、即时通信软件中出现的暗网地址；

Tor2Web技术的出现，使得用户不需要使用洋葱代理即可访问暗网，其地址形式是在原有的.onion后面加上“.to”、“.cab”等，因此可通过“.onion.to”、“.onion.cab”在搜索引擎中进行搜索；

在暗网搜索引擎中搜索常用关键字；

可直接通过其他研究者公开的暗网域名列表获取，例如Ahmia.fi等。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：如何解决暗网原始数据格式不统一、数据内容杂乱的问题，以及解决暗网中小语种多的问题。

(二)技术方案

为了解决上述技术问题，本发明提供了一种面向暗网的数据采集与分析系统，包括：

数据采集模块：用于从公开数据爬取、暗网搜索引擎、Tor2Web地址以及Tor探测节点多个方面获取暗网域名；其中，针对暗网的数据采集，爬虫分为两类，一种在明网中，利用Tor浏览器或其他Tor代理进行爬取，第二种部署在Tor网络中，可直接进行爬取；

数据处理模块：用于将数据采集模块获取的暗网原始数据进行处理，为数据存储及分析做预处理；

数据存储模块：用于实现对数据采集模块得到的原始数据、数据处理模块得到的中间数据、结果数据的存储；原始数据包括爬虫采集到的非格式化数据、域名地址；中间数据包括格式化的数据；结果数据存储特征数据，索引数据包括数据处理过程中，对文本数据打的标签；

数据分析模块：用于实现对数据存储模块中存储的数据的分析。

优选地，所述数据采集模块具体通过以下方式获取暗网域名：所述公开数据爬取包括微博、论坛、聊天软件这些目标，爬取后缀为.onion的域名地址；暗网搜索引擎是利用Tor浏览器自带的搜索引擎搜索常用关键词进行搜索；Tor2Web地址是使用户可直接通过普通浏览器访问暗网地址，用户可在暗网域名后加入特定的后缀实现访问，针对这一类地址，可通过搜索特定后缀实现采集。

优选地，所述数据采集模块具体通过以下方式获取暗网域名：所述Tor探测节点是利用受控中继节点实现在Tor网络内的主被动相结合的域名搜集与内容爬取：

主动方式，是在Tor中继节点中部署内部网络爬虫，这样免去了接入Tor网络的过程，可大大提升爬虫执行效率，在爬取策略上，内部爬虫与外部爬虫维持同样一个暗网地址列表，并进行同步处理，这样做是为了解决暗网网站不稳定，导致爬虫无法工作的问题；另外，内部爬虫可按照一定规则，自定义生成暗网地址，该策略可用于发现更多新的暗网地址；

被动方式，是通过对Tor网络访问原理的分析，得知用户想要访问隐藏服务不得不发送对相应服务数据库的请求信息，Tor网络数据库是由一组叫做HSDris的稳定中继器组成的DHT网络，因此可以将受控中继节点伪装成HSDirs节点，这样就可以直接获取发送的连接请求。

优选地，所述数据处理模块具体用于通过以下方法进行数据处理：

语种翻译：通过机器翻译，将不同国家、不同民族的语言进行翻译；

信息提取：运用机器学习相关知识，提取语种翻译后数据中的有用信息，去除多余无意义信息；将关注的文本通过自然语言处理方法进行关键词提取、依存句法分析方法，抽取文本中的热点事件相关的实体，并抽取出两个或多个实体之间的关系；

数据格式化：根据结构化威胁信息表达式STIX以及指标信息的可信自动化交换TAXII标准，将经信息提取后得到的多样化暗网数据统一表达；

特征提取：通过机器学习相关算法对格式化后的文本进行分析、处理、归纳和推理，将格式化数据抽象出一个特征，作为数据的标签，标签可有多个；

数据筛选：将经特征提取后的多样数据进行清洗筛选，实现对无意义信息的进一步去除。

优选地，所述数据分析模块具体用于通过热点事件分析、敏感数据跟踪、事件关联分析、域名分析其中的一种或多种方法进行数据分析：

热点事件分析：是基于数据标签，完成对热点事件的挖掘，热点事件包括突发事件以及长期受关注事件，因此热点事件定义如下：1、事件发生前未出现，一旦出现，事件标签出现频率高于预设阈值；2、一段事件内，事件标签持续预设一定时间出现；

敏感数据跟踪：对暗网中出现的数据泄露事件进行跟踪，包括数据的发出者、发出平台、数据讨论信息、关注数据的用户等；具体操作是将敏感数据标签化，通过内外部爬虫对暗网网站的爬取，获取海量数据，利用标签对敏感数据进行检索，以敏感数据为中心，关联出敏感数据泄露者、数据流向信息；通过预设一定时间的持续关注，分析出数据泄露规模、关注该数据的用户情况，进而对用户标签化处理提供数据支撑；

关联分析：对暗网数据中的人物、时间、地点、事件关联起来；并对暗网数据中的人与人、人与事件之间进行关联，从而通过用户的行为，尽可能挖掘暗网用户标签；并通过对不同用户标签的关联分析，挖掘暗网中的社会群体关系；

域名统计分析：实现对暗网域名的分析，包括访问的统计分析、域名类别的分析、热点域名排序；该分析利用统计分析方法，观测网站规模的变化，网站类别的变化，并用于通过网站规模的变化间接推测Tor网络安全状态。

优选地，所述系统还包括：应用模块：用于对数据分析模块得到的数据进行可视化展示，包括实现热点事件的展示、数据泄露跟踪展示、人与事件、人与人关联关系展示、用户画像展示、事件趋势展示。

本发明还提供了一种面向暗网的数据采集与分析方法，包括以下步骤：

数据采集步骤：从公开数据爬取、暗网搜索引擎、Tor2Web地址以及Tor探测节点多个方面获取暗网域名；其中，针对暗网的数据采集，爬虫分为两类，一种在明网中，利用Tor浏览器或其他Tor代理进行爬取，第二种部署在Tor网络中，可直接进行爬取；

数据处理步骤：将数据采集模块获取的暗网原始数据进行处理，为数据存储及分析做预处理；

数据存储步骤：实现对数据采集模块得到的原始数据、数据处理模块得到的中间数据、结果数据的存储；原始数据包括爬虫采集到的非格式化数据、域名地址；中间数据包括格式化的数据；结果数据存储特征数据，索引数据包括数据处理过程中，对文本数据打的标签；

数据分析步骤：实现对数据存储模块中存储的数据的分析。

优选地，所述公开数据爬取包括微博、论坛、聊天软件这些目标，爬取后缀为.onion的域名地址；暗网搜索引擎是利用Tor浏览器自带的搜索引擎搜索常用关键词进行搜索；Tor2Web地址是使用户可直接通过普通浏览器访问暗网地址，用户可在暗网域名后加入特定的后缀实现访问，针对这一类地址，可通过搜索特定后缀实现采集。

优选地，所述Tor探测节点是利用受控中继节点实现在Tor网络内的主被动相结合的域名搜集与内容爬取：

优选地，所述数据分析步骤包括通过热点事件分析、敏感数据跟踪、事件关联分析、域名分析其中的一种或多种方法进行数据分析：

(三)有益效果

本发明在暗网数据采集方面通过在tor网络中部署探测节点，结合已有的爬虫接入、域名获取技术及方法，可获取更多有效暗网地址，通过暗网数据分析，将获取的暗网数据，进行关联性分析、热点分析等，从而解决了暗网原始数据格式不统一、数据内容杂乱的问题，并通过翻译平台解决了暗网中小语种多的问题。

附图说明

图1为本发明提供的一种轻量级电子文档传递控制系统的应用场景示意图；

图2为本发明提供的一种轻量级电子文档传递控制系统的组成结构图；

图3为本发明提供的一种轻量级电子文档传递控制方法流程图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本发明的暗网数据采集分析系统原理图如图1所示，包括：

其中公开数据爬取包括微博、论坛、聊天软件这些目标，爬取后缀为.onion的域名地址；暗网搜索引擎是利用Tor浏览器自带的搜索引擎搜索常用关键词进行搜索；Tor2Web地址是使用户可直接通过普通浏览器访问暗网地址，用户可在暗网域名后加入特定的后缀实现访问，针对这一类地址，可通过搜索特定后缀实现采集；

Tor探测节点是利用受控中继节点实现在Tor网络内的主被动相结合的域名搜集与内容爬取：

以上暗网域名的获取原理如图2所示。

数据处理模块：用于将数据采集模块获取的暗网原始数据进行处理，为数据存储及分析做预处理，包括语种翻译、信息提取、数据格式化、特征提取、数据筛选这些步骤。

已有研究表明，暗网中的有效数据是明网中数据的上百倍，但暗网中的数据的多样性直接影响了对数据的有效利用。因此本发明中针对暗网数据做以下处理：

语种翻译：通过机器翻译，将不同国家、不同民族的语言进行大概的翻译；

信息提取：运用机器学习相关知识，提取语种翻译后数据中的有用信息，去除多余无意义信息；将关注的文本通过自然语言处理方法进行关键词提取、依存句法分析等方法，抽取文本中的热点事件相关的实体，例如网络病毒、机构、人物、枪支、毒品等，并抽取出两个或多个实体之间的关系；

特征提取：通过机器学习相关算法对格式化后的文本进行分析、处理、归纳和推理，将格式化数据抽象出一个特征，作为数据的标签，标签可有多个，便于对数据的搜索；

以上数据处理的流程如图3所示。

数据存储模块：用于实现对数据采集模块得到的原始数据、数据处理模块得到的中间数据、结果数据的存储；原始数据包括爬虫采集到的非格式化数据、域名地址；中间数据包括格式化的数据；结果数据存储特征数据，索引数据(包括数据处理过程中，对文本数据打的标签)等。

数据分析模块：暗网数据丰富多样，该模块用于实现对数据存储模块中存储的数据(多样数据)的分析，分析方法包括热点事件分析、敏感数据跟踪、事件关联分析、域名分析其中的一种或多种。

热点事件分析：是基于数据标签，完成对热点事件的挖掘，热点事件包括突发事件以及长期受关注事件，因此热点事件定义如下：1、事件发生前未出现，一旦出现，事件标签出现频率非常高；2、一段事件内，事件标签持续出现；

敏感数据跟踪：近些年，暗网中出现过多次泄露数据的出售事件，因此本发明一个重要的应用就是对暗网中出现的数据泄露事件进行跟踪，包括数据的发出者、发出平台、数据讨论信息、关注数据的用户等；具体操作是将敏感数据标签化，通过内外部爬虫对暗网网站的爬取，获取海量数据，利用标签对敏感数据进行检索，以敏感数据为中心，关联出敏感数据泄露者、数据流向等信息；通过一定时间的持续关注，可分析出数据泄露规模、关注该数据的用户情况，进而对用户标签化处理提供数据支撑；

关联分析：暗网数据具有碎片化严重的特点，有必要将人物、时间、地点、事件关联起来；另外，暗网存在一种弱社交关系，人与人、事件之间的关联也应成为暗网数据关联分析的一项重要内容；暗网由于提供较强匿名性，因此为非法活动提供遮蔽，关联分析的作用一方面是通过用户的行为，尽可能挖掘暗网用户标签；另一方面通过对不同用户标签的关联分析，可以挖掘暗网中的社会群体关系；

域名统计分析：实现对暗网域名的分析，包括访问的统计分析、域名类别的分析、热点域名排序等；该分析为之后暗网网站分布研究提供支撑，利用统计分析方法，可观测网站规模的变化，网站类别的变化，对暗网网站数量预测有一定帮助，另外，通过网站规模的变化，可间接推测Tor网络安全状态。

应用模块：用于对数据分析模块得到的数据进行可视化展示，实现热点事件的展示、数据泄露跟踪展示、人与事件、人与人关联关系展示、用户画像展示、事件趋势展示。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种面向暗网的数据采集与分析系统，其特征在于，包括：

2.如权利要求1所述的系统，其特征在于，所述数据采集模块具体通过以下方式获取暗网域名：所述公开数据爬取包括微博、论坛、聊天软件这些目标，爬取后缀为.onion的域名地址；暗网搜索引擎是利用Tor浏览器自带的搜索引擎搜索常用关键词进行搜索；Tor2Web地址是使用户可直接通过普通浏览器访问暗网地址，用户可在暗网域名后加入特定的后缀实现访问，针对这一类地址，可通过搜索特定后缀实现采集。

3.如权利要求2所述的系统，其特征在于，所述数据采集模块具体通过以下方式获取暗网域名：所述Tor探测节点是利用受控中继节点实现在Tor网络内的主被动相结合的域名搜集与内容爬取：

4.如权利要求1所述的系统，其特征在于，所述数据处理模块具体用于通过以下方法进行数据处理：

5.如权利要求1所述的系统，其特征在于，所述数据分析模块具体用于通过热点事件分析、敏感数据跟踪、事件关联分析、域名分析其中的一种或多种方法进行数据分析：

6.如权利要求1所述的系统，其特征在于，所述系统还包括：应用模块：用于对数据分析模块得到的数据进行可视化展示，包括实现热点事件的展示、数据泄露跟踪展示、人与事件、人与人关联关系展示、用户画像展示、事件趋势展示。

7.一种面向暗网的数据采集与分析方法，其特征在于，包括以下步骤：

数据分析步骤：实现对数据存储模块中存储的数据的分析。

8.如权利要求7所述的方法，其特征在于，所述公开数据爬取包括微博、论坛、聊天软件这些目标，爬取后缀为.onion的域名地址；暗网搜索引擎是利用Tor浏览器自带的搜索引擎搜索常用关键词进行搜索；Tor2Web地址是使用户可直接通过普通浏览器访问暗网地址，用户可在暗网域名后加入特定的后缀实现访问，针对这一类地址，可通过搜索特定后缀实现采集。

9.如权利要求8所述的方法，其特征在于，所述Tor探测节点是利用受控中继节点实现在Tor网络内的主被动相结合的域名搜集与内容爬取：

10.如权利要求7所述的方法，其特征在于，所述数据分析步骤包括通过热点事件分析、敏感数据跟踪、事件关联分析、域名分析其中的一种或多种方法进行数据分析：