CN110119469A - 一种面向暗网的数据采集与分析系统及方法 - Google Patents
一种面向暗网的数据采集与分析系统及方法 Download PDFInfo
- Publication number
- CN110119469A CN110119469A CN201910427963.2A CN201910427963A CN110119469A CN 110119469 A CN110119469 A CN 110119469A CN 201910427963 A CN201910427963 A CN 201910427963A CN 110119469 A CN110119469 A CN 110119469A
- Authority
- CN
- China
- Prior art keywords
- data
- darknet
- analysis
- domain name
- tor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Abstract
本发明涉及一种面向暗网的数据采集与分析系统及方法,涉及信息安全技术领域。本发明在暗网数据采集方面通过在tor网络中部署探测节点,结合已有的爬虫接入、域名获取技术及方法,可获取更多有效暗网地址,通过暗网数据分析,将获取的暗网数据,进行关联性分析、热点分析等,从而解决了暗网原始数据格式不统一、数据内容杂乱的问题,并通过翻译平台解决了暗网中小语种多的问题。
Description
技术领域
本发明涉及信息安全技术领域,具体涉及一种面向暗网的数据采集与分析系统及方法。
背景技术
随着Internet的迅速发展,网络已经融入到军事、政治、经济、社会、日常生活等各个领域。方便人们生活的同时,随之而来的是网络犯罪、网络恐怖主义。数据显示,利用计算机网络实施犯罪的案件数量呈明显上升趋势,犯罪手段趋于智能化、专业化、隐蔽化。匿名网络的出现可有效保护互联网使用者的个人隐私,但同样为犯罪分子隐藏真实网络地址实施网络犯罪提供了便利。另一方面,暗网等匿名网络中包含大量价值价较高的信息,对个人学习、企业发展、案件侦破等有着重要的推动作用。
TOR作为一款主流的匿名网络,用户量超过1000万,在暗网中超过百分之七十的服务采用TOR网络。与表层网络中可以通过URL和域名解析服务器获得目标网站的IP地址不同,暗网中的服务器IP地址是不能够暴露的。暗网中有一个类似于DNS功能的分布式散列表,其中存储着一些站点的相关信息。在暗网中,想要建立一个网站,首先要随机选择几个介绍点(introductionpoint),并与之建立电路,因此介绍点并不知道服务器的真实IP。然后服务器组合起一个描述符,里面包括了公钥和各个介绍点的摘要,然后用私钥签名,最后把描述符上传到前面提到的分布式散列表中,网站就建立好了。网站的域名就是一个从公钥中派生出的16位由字母和数字组成的字符串,通常采用顶级域名.onion,形如:3p5otzxxnvs3caxax.onion,域名生成方法如下:
H=H(public-key),其中public-key为暗网服务的公钥,H(public-key)为对公钥进行sha1计算;
H=取(1)结果的前10个字节;
对h进行base32编码,得到16位字符串。
区别于明网情报数据采集,暗网数据采集的难点在于1、爬虫引擎如何接入TOR网络,2、爬虫如何获取更多有效地址。已有的做法是将传统的Scrapy爬虫框架接入HTTP代理服务器,利用代理服务器接入TOR网络,在获取暗网地址方面,一般有以下几种方式:
利用明网爬虫,采集明网中社交平台、论坛、即时通信软件中出现的暗网地址;
Tor2Web技术的出现,使得用户不需要使用洋葱代理即可访问暗网,其地址形式是在原有的.onion后面加上“.to”、“.cab”等,因此可通过“.onion.to”、“.onion.cab”在搜索引擎中进行搜索;
在暗网搜索引擎中搜索常用关键字;
可直接通过其他研究者公开的暗网域名列表获取,例如Ahmia.fi等。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何解决暗网原始数据格式不统一、数据内容杂乱的问题,以及解决暗网中小语种多的问题。
(二)技术方案
为了解决上述技术问题,本发明提供了一种面向暗网的数据采集与分析系统,包括:
数据采集模块:用于从公开数据爬取、暗网搜索引擎、Tor2Web地址以及Tor探测节点多个方面获取暗网域名;其中,针对暗网的数据采集,爬虫分为两类,一种在明网中,利用Tor浏览器或其他Tor代理进行爬取,第二种部署在Tor网络中,可直接进行爬取;
数据处理模块:用于将数据采集模块获取的暗网原始数据进行处理,为数据存储及分析做预处理;
数据存储模块:用于实现对数据采集模块得到的原始数据、数据处理模块得到的中间数据、结果数据的存储;原始数据包括爬虫采集到的非格式化数据、域名地址;中间数据包括格式化的数据;结果数据存储特征数据,索引数据包括数据处理过程中,对文本数据打的标签;
数据分析模块:用于实现对数据存储模块中存储的数据的分析。
优选地,所述数据采集模块具体通过以下方式获取暗网域名:所述公开数据爬取包括微博、论坛、聊天软件这些目标,爬取后缀为.onion的域名地址;暗网搜索引擎是利用Tor浏览器自带的搜索引擎搜索常用关键词进行搜索;Tor2Web地址是使用户可直接通过普通浏览器访问暗网地址,用户可在暗网域名后加入特定的后缀实现访问,针对这一类地址,可通过搜索特定后缀实现采集。
优选地,所述数据采集模块具体通过以下方式获取暗网域名:所述Tor探测节点是利用受控中继节点实现在Tor网络内的主被动相结合的域名搜集与内容爬取:
主动方式,是在Tor中继节点中部署内部网络爬虫,这样免去了接入Tor网络的过程,可大大提升爬虫执行效率,在爬取策略上,内部爬虫与外部爬虫维持同样一个暗网地址列表,并进行同步处理,这样做是为了解决暗网网站不稳定,导致爬虫无法工作的问题;另外,内部爬虫可按照一定规则,自定义生成暗网地址,该策略可用于发现更多新的暗网地址;
被动方式,是通过对Tor网络访问原理的分析,得知用户想要访问隐藏服务不得不发送对相应服务数据库的请求信息,Tor网络数据库是由一组叫做HSDris的稳定中继器组成的DHT网络,因此可以将受控中继节点伪装成HSDirs节点,这样就可以直接获取发送的连接请求。
优选地,所述数据处理模块具体用于通过以下方法进行数据处理:
语种翻译:通过机器翻译,将不同国家、不同民族的语言进行翻译;
信息提取:运用机器学习相关知识,提取语种翻译后数据中的有用信息,去除多余无意义信息;将关注的文本通过自然语言处理方法进行关键词提取、依存句法分析方法,抽取文本中的热点事件相关的实体,并抽取出两个或多个实体之间的关系;
数据格式化:根据结构化威胁信息表达式STIX以及指标信息的可信自动化交换TAXII标准,将经信息提取后得到的多样化暗网数据统一表达;
特征提取:通过机器学习相关算法对格式化后的文本进行分析、处理、归纳和推理,将格式化数据抽象出一个特征,作为数据的标签,标签可有多个;
数据筛选:将经特征提取后的多样数据进行清洗筛选,实现对无意义信息的进一步去除。
优选地,所述数据分析模块具体用于通过热点事件分析、敏感数据跟踪、事件关联分析、域名分析其中的一种或多种方法进行数据分析:
热点事件分析:是基于数据标签,完成对热点事件的挖掘,热点事件包括突发事件以及长期受关注事件,因此热点事件定义如下:1、事件发生前未出现,一旦出现,事件标签出现频率高于预设阈值;2、一段事件内,事件标签持续预设一定时间出现;
敏感数据跟踪:对暗网中出现的数据泄露事件进行跟踪,包括数据的发出者、发出平台、数据讨论信息、关注数据的用户等;具体操作是将敏感数据标签化,通过内外部爬虫对暗网网站的爬取,获取海量数据,利用标签对敏感数据进行检索,以敏感数据为中心,关联出敏感数据泄露者、数据流向信息;通过预设一定时间的持续关注,分析出数据泄露规模、关注该数据的用户情况,进而对用户标签化处理提供数据支撑;
关联分析:对暗网数据中的人物、时间、地点、事件关联起来;并对暗网数据中的人与人、人与事件之间进行关联,从而通过用户的行为,尽可能挖掘暗网用户标签;并通过对不同用户标签的关联分析,挖掘暗网中的社会群体关系;
域名统计分析:实现对暗网域名的分析,包括访问的统计分析、域名类别的分析、热点域名排序;该分析利用统计分析方法,观测网站规模的变化,网站类别的变化,并用于通过网站规模的变化间接推测Tor网络安全状态。
优选地,所述系统还包括:应用模块:用于对数据分析模块得到的数据进行可视化展示,包括实现热点事件的展示、数据泄露跟踪展示、人与事件、人与人关联关系展示、用户画像展示、事件趋势展示。
本发明还提供了一种面向暗网的数据采集与分析方法,包括以下步骤:
数据采集步骤:从公开数据爬取、暗网搜索引擎、Tor2Web地址以及Tor探测节点多个方面获取暗网域名;其中,针对暗网的数据采集,爬虫分为两类,一种在明网中,利用Tor浏览器或其他Tor代理进行爬取,第二种部署在Tor网络中,可直接进行爬取;
数据处理步骤:将数据采集模块获取的暗网原始数据进行处理,为数据存储及分析做预处理;
数据存储步骤:实现对数据采集模块得到的原始数据、数据处理模块得到的中间数据、结果数据的存储;原始数据包括爬虫采集到的非格式化数据、域名地址;中间数据包括格式化的数据;结果数据存储特征数据,索引数据包括数据处理过程中,对文本数据打的标签;
数据分析步骤:实现对数据存储模块中存储的数据的分析。
优选地,所述公开数据爬取包括微博、论坛、聊天软件这些目标,爬取后缀为.onion的域名地址;暗网搜索引擎是利用Tor浏览器自带的搜索引擎搜索常用关键词进行搜索;Tor2Web地址是使用户可直接通过普通浏览器访问暗网地址,用户可在暗网域名后加入特定的后缀实现访问,针对这一类地址,可通过搜索特定后缀实现采集。
优选地,所述Tor探测节点是利用受控中继节点实现在Tor网络内的主被动相结合的域名搜集与内容爬取:
主动方式,是在Tor中继节点中部署内部网络爬虫,这样免去了接入Tor网络的过程,可大大提升爬虫执行效率,在爬取策略上,内部爬虫与外部爬虫维持同样一个暗网地址列表,并进行同步处理,这样做是为了解决暗网网站不稳定,导致爬虫无法工作的问题;另外,内部爬虫可按照一定规则,自定义生成暗网地址,该策略可用于发现更多新的暗网地址;
被动方式,是通过对Tor网络访问原理的分析,得知用户想要访问隐藏服务不得不发送对相应服务数据库的请求信息,Tor网络数据库是由一组叫做HSDris的稳定中继器组成的DHT网络,因此可以将受控中继节点伪装成HSDirs节点,这样就可以直接获取发送的连接请求。
优选地,所述数据分析步骤包括通过热点事件分析、敏感数据跟踪、事件关联分析、域名分析其中的一种或多种方法进行数据分析:
热点事件分析:是基于数据标签,完成对热点事件的挖掘,热点事件包括突发事件以及长期受关注事件,因此热点事件定义如下:1、事件发生前未出现,一旦出现,事件标签出现频率高于预设阈值;2、一段事件内,事件标签持续预设一定时间出现;
敏感数据跟踪:对暗网中出现的数据泄露事件进行跟踪,包括数据的发出者、发出平台、数据讨论信息、关注数据的用户等;具体操作是将敏感数据标签化,通过内外部爬虫对暗网网站的爬取,获取海量数据,利用标签对敏感数据进行检索,以敏感数据为中心,关联出敏感数据泄露者、数据流向信息;通过预设一定时间的持续关注,分析出数据泄露规模、关注该数据的用户情况,进而对用户标签化处理提供数据支撑;
关联分析:对暗网数据中的人物、时间、地点、事件关联起来;并对暗网数据中的人与人、人与事件之间进行关联,从而通过用户的行为,尽可能挖掘暗网用户标签;并通过对不同用户标签的关联分析,挖掘暗网中的社会群体关系;
域名统计分析:实现对暗网域名的分析,包括访问的统计分析、域名类别的分析、热点域名排序;该分析利用统计分析方法,观测网站规模的变化,网站类别的变化,并用于通过网站规模的变化间接推测Tor网络安全状态。
(三)有益效果
本发明在暗网数据采集方面通过在tor网络中部署探测节点,结合已有的爬虫接入、域名获取技术及方法,可获取更多有效暗网地址,通过暗网数据分析,将获取的暗网数据,进行关联性分析、热点分析等,从而解决了暗网原始数据格式不统一、数据内容杂乱的问题,并通过翻译平台解决了暗网中小语种多的问题。
附图说明
图1为本发明提供的一种轻量级电子文档传递控制系统的应用场景示意图;
图2为本发明提供的一种轻量级电子文档传递控制系统的组成结构图;
图3为本发明提供的一种轻量级电子文档传递控制方法流程图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
本发明的暗网数据采集分析系统原理图如图1所示,包括:
数据采集模块:用于从公开数据爬取、暗网搜索引擎、Tor2Web地址以及Tor探测节点多个方面获取暗网域名;其中,针对暗网的数据采集,爬虫分为两类,一种在明网中,利用Tor浏览器或其他Tor代理进行爬取,第二种部署在Tor网络中,可直接进行爬取;
其中公开数据爬取包括微博、论坛、聊天软件这些目标,爬取后缀为.onion的域名地址;暗网搜索引擎是利用Tor浏览器自带的搜索引擎搜索常用关键词进行搜索;Tor2Web地址是使用户可直接通过普通浏览器访问暗网地址,用户可在暗网域名后加入特定的后缀实现访问,针对这一类地址,可通过搜索特定后缀实现采集;
Tor探测节点是利用受控中继节点实现在Tor网络内的主被动相结合的域名搜集与内容爬取:
主动方式,是在Tor中继节点中部署内部网络爬虫,这样免去了接入Tor网络的过程,可大大提升爬虫执行效率,在爬取策略上,内部爬虫与外部爬虫维持同样一个暗网地址列表,并进行同步处理,这样做是为了解决暗网网站不稳定,导致爬虫无法工作的问题;另外,内部爬虫可按照一定规则,自定义生成暗网地址,该策略可用于发现更多新的暗网地址;
被动方式,是通过对Tor网络访问原理的分析,得知用户想要访问隐藏服务不得不发送对相应服务数据库的请求信息,Tor网络数据库是由一组叫做HSDris的稳定中继器组成的DHT网络,因此可以将受控中继节点伪装成HSDirs节点,这样就可以直接获取发送的连接请求。
以上暗网域名的获取原理如图2所示。
数据处理模块:用于将数据采集模块获取的暗网原始数据进行处理,为数据存储及分析做预处理,包括语种翻译、信息提取、数据格式化、特征提取、数据筛选这些步骤。
已有研究表明,暗网中的有效数据是明网中数据的上百倍,但暗网中的数据的多样性直接影响了对数据的有效利用。因此本发明中针对暗网数据做以下处理:
语种翻译:通过机器翻译,将不同国家、不同民族的语言进行大概的翻译;
信息提取:运用机器学习相关知识,提取语种翻译后数据中的有用信息,去除多余无意义信息;将关注的文本通过自然语言处理方法进行关键词提取、依存句法分析等方法,抽取文本中的热点事件相关的实体,例如网络病毒、机构、人物、枪支、毒品等,并抽取出两个或多个实体之间的关系;
数据格式化:根据结构化威胁信息表达式STIX以及指标信息的可信自动化交换TAXII标准,将经信息提取后得到的多样化暗网数据统一表达;
特征提取:通过机器学习相关算法对格式化后的文本进行分析、处理、归纳和推理,将格式化数据抽象出一个特征,作为数据的标签,标签可有多个,便于对数据的搜索;
数据筛选:将经特征提取后的多样数据进行清洗筛选,实现对无意义信息的进一步去除。
以上数据处理的流程如图3所示。
数据存储模块:用于实现对数据采集模块得到的原始数据、数据处理模块得到的中间数据、结果数据的存储;原始数据包括爬虫采集到的非格式化数据、域名地址;中间数据包括格式化的数据;结果数据存储特征数据,索引数据(包括数据处理过程中,对文本数据打的标签)等。
数据分析模块:暗网数据丰富多样,该模块用于实现对数据存储模块中存储的数据(多样数据)的分析,分析方法包括热点事件分析、敏感数据跟踪、事件关联分析、域名分析其中的一种或多种。
热点事件分析:是基于数据标签,完成对热点事件的挖掘,热点事件包括突发事件以及长期受关注事件,因此热点事件定义如下:1、事件发生前未出现,一旦出现,事件标签出现频率非常高;2、一段事件内,事件标签持续出现;
敏感数据跟踪:近些年,暗网中出现过多次泄露数据的出售事件,因此本发明一个重要的应用就是对暗网中出现的数据泄露事件进行跟踪,包括数据的发出者、发出平台、数据讨论信息、关注数据的用户等;具体操作是将敏感数据标签化,通过内外部爬虫对暗网网站的爬取,获取海量数据,利用标签对敏感数据进行检索,以敏感数据为中心,关联出敏感数据泄露者、数据流向等信息;通过一定时间的持续关注,可分析出数据泄露规模、关注该数据的用户情况,进而对用户标签化处理提供数据支撑;
关联分析:暗网数据具有碎片化严重的特点,有必要将人物、时间、地点、事件关联起来;另外,暗网存在一种弱社交关系,人与人、事件之间的关联也应成为暗网数据关联分析的一项重要内容;暗网由于提供较强匿名性,因此为非法活动提供遮蔽,关联分析的作用一方面是通过用户的行为,尽可能挖掘暗网用户标签;另一方面通过对不同用户标签的关联分析,可以挖掘暗网中的社会群体关系;
域名统计分析:实现对暗网域名的分析,包括访问的统计分析、域名类别的分析、热点域名排序等;该分析为之后暗网网站分布研究提供支撑,利用统计分析方法,可观测网站规模的变化,网站类别的变化,对暗网网站数量预测有一定帮助,另外,通过网站规模的变化,可间接推测Tor网络安全状态。
应用模块:用于对数据分析模块得到的数据进行可视化展示,实现热点事件的展示、数据泄露跟踪展示、人与事件、人与人关联关系展示、用户画像展示、事件趋势展示。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (10)
1.一种面向暗网的数据采集与分析系统,其特征在于,包括:
数据采集模块:用于从公开数据爬取、暗网搜索引擎、Tor2Web地址以及Tor探测节点多个方面获取暗网域名;其中,针对暗网的数据采集,爬虫分为两类,一种在明网中,利用Tor浏览器或其他Tor代理进行爬取,第二种部署在Tor网络中,可直接进行爬取;
数据处理模块:用于将数据采集模块获取的暗网原始数据进行处理,为数据存储及分析做预处理;
数据存储模块:用于实现对数据采集模块得到的原始数据、数据处理模块得到的中间数据、结果数据的存储;原始数据包括爬虫采集到的非格式化数据、域名地址;中间数据包括格式化的数据;结果数据存储特征数据,索引数据包括数据处理过程中,对文本数据打的标签;
数据分析模块:用于实现对数据存储模块中存储的数据的分析。
2.如权利要求1所述的系统,其特征在于,所述数据采集模块具体通过以下方式获取暗网域名:所述公开数据爬取包括微博、论坛、聊天软件这些目标,爬取后缀为.onion的域名地址;暗网搜索引擎是利用Tor浏览器自带的搜索引擎搜索常用关键词进行搜索;Tor2Web地址是使用户可直接通过普通浏览器访问暗网地址,用户可在暗网域名后加入特定的后缀实现访问,针对这一类地址,可通过搜索特定后缀实现采集。
3.如权利要求2所述的系统,其特征在于,所述数据采集模块具体通过以下方式获取暗网域名:所述Tor探测节点是利用受控中继节点实现在Tor网络内的主被动相结合的域名搜集与内容爬取:
主动方式,是在Tor中继节点中部署内部网络爬虫,这样免去了接入Tor网络的过程,可大大提升爬虫执行效率,在爬取策略上,内部爬虫与外部爬虫维持同样一个暗网地址列表,并进行同步处理,这样做是为了解决暗网网站不稳定,导致爬虫无法工作的问题;另外,内部爬虫可按照一定规则,自定义生成暗网地址,该策略可用于发现更多新的暗网地址;
被动方式,是通过对Tor网络访问原理的分析,得知用户想要访问隐藏服务不得不发送对相应服务数据库的请求信息,Tor网络数据库是由一组叫做HSDris的稳定中继器组成的DHT网络,因此可以将受控中继节点伪装成HSDirs节点,这样就可以直接获取发送的连接请求。
4.如权利要求1所述的系统,其特征在于,所述数据处理模块具体用于通过以下方法进行数据处理:
语种翻译:通过机器翻译,将不同国家、不同民族的语言进行翻译;
信息提取:运用机器学习相关知识,提取语种翻译后数据中的有用信息,去除多余无意义信息;将关注的文本通过自然语言处理方法进行关键词提取、依存句法分析方法,抽取文本中的热点事件相关的实体,并抽取出两个或多个实体之间的关系;
数据格式化:根据结构化威胁信息表达式STIX以及指标信息的可信自动化交换TAXII标准,将经信息提取后得到的多样化暗网数据统一表达;
特征提取:通过机器学习相关算法对格式化后的文本进行分析、处理、归纳和推理,将格式化数据抽象出一个特征,作为数据的标签,标签可有多个;
数据筛选:将经特征提取后的多样数据进行清洗筛选,实现对无意义信息的进一步去除。
5.如权利要求1所述的系统,其特征在于,所述数据分析模块具体用于通过热点事件分析、敏感数据跟踪、事件关联分析、域名分析其中的一种或多种方法进行数据分析:
热点事件分析:是基于数据标签,完成对热点事件的挖掘,热点事件包括突发事件以及长期受关注事件,因此热点事件定义如下:1、事件发生前未出现,一旦出现,事件标签出现频率高于预设阈值;2、一段事件内,事件标签持续预设一定时间出现;
敏感数据跟踪:对暗网中出现的数据泄露事件进行跟踪,包括数据的发出者、发出平台、数据讨论信息、关注数据的用户等;具体操作是将敏感数据标签化,通过内外部爬虫对暗网网站的爬取,获取海量数据,利用标签对敏感数据进行检索,以敏感数据为中心,关联出敏感数据泄露者、数据流向信息;通过预设一定时间的持续关注,分析出数据泄露规模、关注该数据的用户情况,进而对用户标签化处理提供数据支撑;
关联分析:对暗网数据中的人物、时间、地点、事件关联起来;并对暗网数据中的人与人、人与事件之间进行关联,从而通过用户的行为,尽可能挖掘暗网用户标签;并通过对不同用户标签的关联分析,挖掘暗网中的社会群体关系;
域名统计分析:实现对暗网域名的分析,包括访问的统计分析、域名类别的分析、热点域名排序;该分析利用统计分析方法,观测网站规模的变化,网站类别的变化,并用于通过网站规模的变化间接推测Tor网络安全状态。
6.如权利要求1所述的系统,其特征在于,所述系统还包括:应用模块:用于对数据分析模块得到的数据进行可视化展示,包括实现热点事件的展示、数据泄露跟踪展示、人与事件、人与人关联关系展示、用户画像展示、事件趋势展示。
7.一种面向暗网的数据采集与分析方法,其特征在于,包括以下步骤:
数据采集步骤:从公开数据爬取、暗网搜索引擎、Tor2Web地址以及Tor探测节点多个方面获取暗网域名;其中,针对暗网的数据采集,爬虫分为两类,一种在明网中,利用Tor浏览器或其他Tor代理进行爬取,第二种部署在Tor网络中,可直接进行爬取;
数据处理步骤:将数据采集模块获取的暗网原始数据进行处理,为数据存储及分析做预处理;
数据存储步骤:实现对数据采集模块得到的原始数据、数据处理模块得到的中间数据、结果数据的存储;原始数据包括爬虫采集到的非格式化数据、域名地址;中间数据包括格式化的数据;结果数据存储特征数据,索引数据包括数据处理过程中,对文本数据打的标签;
数据分析步骤:实现对数据存储模块中存储的数据的分析。
8.如权利要求7所述的方法,其特征在于,所述公开数据爬取包括微博、论坛、聊天软件这些目标,爬取后缀为.onion的域名地址;暗网搜索引擎是利用Tor浏览器自带的搜索引擎搜索常用关键词进行搜索;Tor2Web地址是使用户可直接通过普通浏览器访问暗网地址,用户可在暗网域名后加入特定的后缀实现访问,针对这一类地址,可通过搜索特定后缀实现采集。
9.如权利要求8所述的方法,其特征在于,所述Tor探测节点是利用受控中继节点实现在Tor网络内的主被动相结合的域名搜集与内容爬取:
主动方式,是在Tor中继节点中部署内部网络爬虫,这样免去了接入Tor网络的过程,可大大提升爬虫执行效率,在爬取策略上,内部爬虫与外部爬虫维持同样一个暗网地址列表,并进行同步处理,这样做是为了解决暗网网站不稳定,导致爬虫无法工作的问题;另外,内部爬虫可按照一定规则,自定义生成暗网地址,该策略可用于发现更多新的暗网地址;
被动方式,是通过对Tor网络访问原理的分析,得知用户想要访问隐藏服务不得不发送对相应服务数据库的请求信息,Tor网络数据库是由一组叫做HSDris的稳定中继器组成的DHT网络,因此可以将受控中继节点伪装成HSDirs节点,这样就可以直接获取发送的连接请求。
10.如权利要求7所述的方法,其特征在于,所述数据分析步骤包括通过热点事件分析、敏感数据跟踪、事件关联分析、域名分析其中的一种或多种方法进行数据分析:
热点事件分析:是基于数据标签,完成对热点事件的挖掘,热点事件包括突发事件以及长期受关注事件,因此热点事件定义如下:1、事件发生前未出现,一旦出现,事件标签出现频率高于预设阈值;2、一段事件内,事件标签持续预设一定时间出现;
敏感数据跟踪:对暗网中出现的数据泄露事件进行跟踪,包括数据的发出者、发出平台、数据讨论信息、关注数据的用户等;具体操作是将敏感数据标签化,通过内外部爬虫对暗网网站的爬取,获取海量数据,利用标签对敏感数据进行检索,以敏感数据为中心,关联出敏感数据泄露者、数据流向信息;通过预设一定时间的持续关注,分析出数据泄露规模、关注该数据的用户情况,进而对用户标签化处理提供数据支撑;
关联分析:对暗网数据中的人物、时间、地点、事件关联起来;并对暗网数据中的人与人、人与事件之间进行关联,从而通过用户的行为,尽可能挖掘暗网用户标签;并通过对不同用户标签的关联分析,挖掘暗网中的社会群体关系;
域名统计分析:实现对暗网域名的分析,包括访问的统计分析、域名类别的分析、热点域名排序;该分析利用统计分析方法,观测网站规模的变化,网站类别的变化,并用于通过网站规模的变化间接推测Tor网络安全状态。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910427963.2A CN110119469A (zh) | 2019-05-22 | 2019-05-22 | 一种面向暗网的数据采集与分析系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910427963.2A CN110119469A (zh) | 2019-05-22 | 2019-05-22 | 一种面向暗网的数据采集与分析系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110119469A true CN110119469A (zh) | 2019-08-13 |
Family
ID=67523068
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910427963.2A Pending CN110119469A (zh) | 2019-05-22 | 2019-05-22 | 一种面向暗网的数据采集与分析系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110119469A (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909178A (zh) * | 2019-11-22 | 2020-03-24 | 上海交通大学 | 一种暗网威胁情报收集与信息关联系统和方法 |
CN112148956A (zh) * | 2020-09-30 | 2020-12-29 | 上海交通大学 | 一种基于机器学习的暗网威胁情报挖掘系统和方法 |
CN112199573A (zh) * | 2020-08-05 | 2021-01-08 | 宝付网络科技(上海)有限公司 | 一种非法交易主动探测方法及系统 |
CN112468517A (zh) * | 2021-01-25 | 2021-03-09 | 广州大学 | 一种抗溯源的匿名通信网络接入方法、系统及设备 |
CN112464666A (zh) * | 2019-08-19 | 2021-03-09 | 四川大学 | 一种基于暗网数据的未知网络威胁自动发现方法 |
CN112511513A (zh) * | 2020-11-19 | 2021-03-16 | 西安电子科技大学 | 基于Tor网络业务的威胁情报接入工具箱 |
CN112804192A (zh) * | 2020-12-21 | 2021-05-14 | 网神信息技术(北京)股份有限公司 | 暗网泄露监测方法、装置、电子设备、程序和介质 |
CN113268649A (zh) * | 2021-03-04 | 2021-08-17 | 北京天润基业科技发展股份有限公司 | 基于多元化数据融合的线索监测方法及系统 |
CN114039782A (zh) * | 2021-11-10 | 2022-02-11 | 深圳安巽科技有限公司 | 一种暗网监控方法、系统及存储介质 |
CN114168832A (zh) * | 2021-11-17 | 2022-03-11 | 中国人民解放军国防科技大学 | 一种面向推荐平台的rpa数据采集方法 |
CN114710315A (zh) * | 2022-02-23 | 2022-07-05 | 中国兵器工业信息中心 | 一种暗网威胁信息获取方法 |
CN115001987A (zh) * | 2022-07-19 | 2022-09-02 | 中国电子科技集团公司第三十研究所 | 一种Tor网络的域名规模评估方法及系统 |
CN115051850A (zh) * | 2022-06-08 | 2022-09-13 | 清创网御(合肥)科技有限公司 | 一种全球暗网威胁线索智能检测方法及检测系统 |
CN115296891A (zh) * | 2022-08-02 | 2022-11-04 | 中国电子科技集团公司信息科学研究院 | 数据探测系统和数据探测方法 |
CN115296892A (zh) * | 2022-08-02 | 2022-11-04 | 中国电子科技集团公司信息科学研究院 | 数据信息服务系统 |
CN115296888A (zh) * | 2022-08-02 | 2022-11-04 | 中国电子科技集团公司信息科学研究院 | 数据雷达监测系统 |
CN117354065A (zh) * | 2023-12-05 | 2024-01-05 | 国网四川省电力公司电力科学研究院 | 一种基于大数据的工控网络威胁情报分析方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106354770A (zh) * | 2016-08-22 | 2017-01-25 | 成都众易通科技有限公司 | 一种数据分析系统 |
CN106815293A (zh) * | 2016-12-08 | 2017-06-09 | 中国电子科技集团公司第三十二研究所 | 一种面向情报分析的构建知识图谱的系统及方法 |
CN107808000A (zh) * | 2017-11-13 | 2018-03-16 | 哈尔滨工业大学(威海) | 一种暗网数据采集与抽取系统及方法 |
CN108829792A (zh) * | 2018-06-01 | 2018-11-16 | 成都康乔电子有限责任公司 | 基于scrapy的分布式暗网资源挖掘系统及方法 |
-
2019
- 2019-05-22 CN CN201910427963.2A patent/CN110119469A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106354770A (zh) * | 2016-08-22 | 2017-01-25 | 成都众易通科技有限公司 | 一种数据分析系统 |
CN106815293A (zh) * | 2016-12-08 | 2017-06-09 | 中国电子科技集团公司第三十二研究所 | 一种面向情报分析的构建知识图谱的系统及方法 |
CN107808000A (zh) * | 2017-11-13 | 2018-03-16 | 哈尔滨工业大学(威海) | 一种暗网数据采集与抽取系统及方法 |
CN108829792A (zh) * | 2018-06-01 | 2018-11-16 | 成都康乔电子有限责任公司 | 基于scrapy的分布式暗网资源挖掘系统及方法 |
Non-Patent Citations (2)
Title |
---|
GARETH OWENSON等: "The darknet's smaller than we thought: The life cycle of Tor Hidden Services", 《DIGITAL INVESTIGATION》 * |
杨溢等: "基于Tor 的暗网空间资源探测", 《通信技术》 * |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112464666A (zh) * | 2019-08-19 | 2021-03-09 | 四川大学 | 一种基于暗网数据的未知网络威胁自动发现方法 |
CN112464666B (zh) * | 2019-08-19 | 2023-07-21 | 四川大学 | 一种基于暗网数据的未知网络威胁自动发现方法 |
CN110909178A (zh) * | 2019-11-22 | 2020-03-24 | 上海交通大学 | 一种暗网威胁情报收集与信息关联系统和方法 |
CN112199573B (zh) * | 2020-08-05 | 2023-12-08 | 宝付网络科技(上海)有限公司 | 一种非法交易主动探测方法及系统 |
CN112199573A (zh) * | 2020-08-05 | 2021-01-08 | 宝付网络科技(上海)有限公司 | 一种非法交易主动探测方法及系统 |
CN112148956A (zh) * | 2020-09-30 | 2020-12-29 | 上海交通大学 | 一种基于机器学习的暗网威胁情报挖掘系统和方法 |
CN112511513A (zh) * | 2020-11-19 | 2021-03-16 | 西安电子科技大学 | 基于Tor网络业务的威胁情报接入工具箱 |
CN112804192A (zh) * | 2020-12-21 | 2021-05-14 | 网神信息技术(北京)股份有限公司 | 暗网泄露监测方法、装置、电子设备、程序和介质 |
CN112468517A (zh) * | 2021-01-25 | 2021-03-09 | 广州大学 | 一种抗溯源的匿名通信网络接入方法、系统及设备 |
CN113268649B (zh) * | 2021-03-04 | 2023-12-19 | 北京天润基业科技发展股份有限公司 | 基于多元化数据融合的线索监测方法及系统 |
CN113268649A (zh) * | 2021-03-04 | 2021-08-17 | 北京天润基业科技发展股份有限公司 | 基于多元化数据融合的线索监测方法及系统 |
CN114039782A (zh) * | 2021-11-10 | 2022-02-11 | 深圳安巽科技有限公司 | 一种暗网监控方法、系统及存储介质 |
CN114168832A (zh) * | 2021-11-17 | 2022-03-11 | 中国人民解放军国防科技大学 | 一种面向推荐平台的rpa数据采集方法 |
CN114168832B (zh) * | 2021-11-17 | 2022-05-27 | 中国人民解放军国防科技大学 | 一种面向推荐平台的rpa数据采集方法 |
CN114710315B (zh) * | 2022-02-23 | 2023-01-20 | 中国兵器工业信息中心 | 一种暗网威胁信息获取方法 |
CN114710315A (zh) * | 2022-02-23 | 2022-07-05 | 中国兵器工业信息中心 | 一种暗网威胁信息获取方法 |
CN115051850A (zh) * | 2022-06-08 | 2022-09-13 | 清创网御(合肥)科技有限公司 | 一种全球暗网威胁线索智能检测方法及检测系统 |
CN115001987B (zh) * | 2022-07-19 | 2022-12-09 | 中国电子科技集团公司第三十研究所 | 一种Tor网络的域名规模评估方法及系统 |
CN115001987A (zh) * | 2022-07-19 | 2022-09-02 | 中国电子科技集团公司第三十研究所 | 一种Tor网络的域名规模评估方法及系统 |
CN115296892A (zh) * | 2022-08-02 | 2022-11-04 | 中国电子科技集团公司信息科学研究院 | 数据信息服务系统 |
CN115296888A (zh) * | 2022-08-02 | 2022-11-04 | 中国电子科技集团公司信息科学研究院 | 数据雷达监测系统 |
CN115296891A (zh) * | 2022-08-02 | 2022-11-04 | 中国电子科技集团公司信息科学研究院 | 数据探测系统和数据探测方法 |
CN115296888B (zh) * | 2022-08-02 | 2023-11-17 | 中国电子科技集团公司信息科学研究院 | 数据雷达监测系统 |
CN115296892B (zh) * | 2022-08-02 | 2023-11-24 | 中国电子科技集团公司信息科学研究院 | 数据信息服务系统 |
CN115296891B (zh) * | 2022-08-02 | 2023-12-22 | 中国电子科技集团公司信息科学研究院 | 数据探测系统和数据探测方法 |
CN117354065A (zh) * | 2023-12-05 | 2024-01-05 | 国网四川省电力公司电力科学研究院 | 一种基于大数据的工控网络威胁情报分析方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110119469A (zh) | 一种面向暗网的数据采集与分析系统及方法 | |
Javed et al. | A comprehensive survey on computer forensics: State-of-the-art, tools, techniques, challenges, and future directions | |
US11108807B2 (en) | Performing rule-based actions for newly observed domain names | |
CN104717185B (zh) | 短统一资源定位符的展示响应方法、装置、服务器和系统 | |
CN103559235B (zh) | 一种在线社交网络恶意网页检测识别方法 | |
US9235728B2 (en) | System and methods for identifying compromised personally identifiable information on the internet | |
CN109857917A (zh) | 面向威胁情报的安全知识图谱构建方法及系统 | |
CN103067387B (zh) | 一种反钓鱼监测系统和方法 | |
Sikos | AI in digital forensics: Ontology engineering for cybercrime investigations | |
Makridakis et al. | Understanding the behavior of malicious applications in social networks | |
CN103888490A (zh) | 一种全自动的web客户端人机识别的方法 | |
US20160119282A1 (en) | Domain name registration verification | |
CN112765366A (zh) | 基于知识图谱的apt组织画像构建方法 | |
CN103647767A (zh) | 一种网站信息的展示方法和装置 | |
CN111104579A (zh) | 一种公网资产的识别方法、装置及存储介质 | |
CN104753730A (zh) | 一种漏洞检测的方法及装置 | |
CN105589953A (zh) | 一种突发公共卫生事件互联网文本抽取方法 | |
Kim et al. | Automated dataset generation system for collaborative research of cyber threat analysis | |
Yang et al. | Dark web forum correlation analysis research | |
CN102902722B (zh) | 一种信息安全性的处理方法和系统 | |
Zheng et al. | Assessing the security of campus networks: the case of seven universities | |
Semenov | Principles of social media monitoring and analysis software | |
Kara et al. | Characteristics of understanding urls and domain names features: the detection of phishing websites with machine learning methods | |
Liu et al. | A research and analysis method of open source threat intelligence data | |
CN107222494A (zh) | 一种sql注入攻击防御组件及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190813 |