CN114039782A - 一种暗网监控方法、系统及存储介质 - Google Patents

一种暗网监控方法、系统及存储介质 Download PDF

Info

Publication number
CN114039782A
CN114039782A CN202111324532.7A CN202111324532A CN114039782A CN 114039782 A CN114039782 A CN 114039782A CN 202111324532 A CN202111324532 A CN 202111324532A CN 114039782 A CN114039782 A CN 114039782A
Authority
CN
China
Prior art keywords
information
data
node
darknet
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111324532.7A
Other languages
English (en)
Other versions
CN114039782B (zh
Inventor
李有为
肖亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Secxun Technology Co ltd
Original Assignee
Shenzhen Secxun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Secxun Technology Co ltd filed Critical Shenzhen Secxun Technology Co ltd
Priority to CN202111324532.7A priority Critical patent/CN114039782B/zh
Publication of CN114039782A publication Critical patent/CN114039782A/zh
Application granted granted Critical
Publication of CN114039782B publication Critical patent/CN114039782B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/30Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information
    • H04L63/302Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information gathering intelligence information for situation awareness or reconnaissance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Technology Law (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种暗网监控方法、系统及存储介质,其中方法包括:通过VPS技术部署数据爬虫节点,实时爬取暗网内的中继节点信息及出口节点信息;实时监控中继节点数据流转信息及出口节点数据收取信息,并爬取明文数据;进行数据匹配,追溯数据流转路线,获得入口节点信息。本发明所提供的方法通过分布式爬取中继节点信息及出口节点信息,以此分别建立节点列表,而后即可根据节点列表对中继节点及出口节点进行监控,通过出口节点可以获得上级中继节点的IP信息,根据对上级中继节点的监控数据,则可以再次获得更上一级的中继节点的信息,以此类推,即可获得入口节点的信息,进而可以获知数据发送方、数据接收方及双方交流的数据。

Description

一种暗网监控方法、系统及存储介质
技术领域
本发明涉及暗网数据获取技术领域,尤其涉及的是一种暗网监控方法、系统及存储介质。
背景技术
暗网(也被称为:深网、不可见网或隐藏网)是指那些存储在网络数据库里、但不能通过超链接访问而需要通过动态网页技术访问的资源集合(即无法通过搜索引擎搜索)。搜索引擎之所以不会收录暗网,通常是因为网站或服务的配置错误、拒绝爬虫爬取信息、需要付费查看、需要注册查看或其他内容访问限制。暗网最主要的特点是保证匿名,其匿名性体现在两个方面:(1)访问普通网站时,网站无法得知访问者IP地址;(2)提供暗网服务时,用户无法得知服务器IP地址。两个性质加起来则使得暗网用户访问网站时,双方都无法得知对方 IP 地址,且中间节点也无法同时得知双方IP地址。当进行数据传输时,系统只会显示用户连接的暗网以及传输的数据量,而不会显示用户访问的网站或所涉及数据的内容。
有数据指出浏览暗网所用的 Tor 浏览器年下载量在 5000 万,根据 Tor 官方项目的统计数据显示,2018 年上半年 Tor 暗网地址(onion addresses(version 2 only))数量峰值为 121078 个。全球总计有17635个中继节点,其中正在运行的有6386 个,它们的平均带宽为5.33MB/s,最大带宽为 99MB/s;每个中继节点都是由全球志愿者免费提供,经过层层中继节点的中转,从而达到隐藏用户真实地址、避免网络监控及流量分析的目的。Tor 网络有其特有的加密方式——三层密钥加密。数据经客户端三层密钥加密后,进行Tor网络的传输,每经过一个节点,便解开一层加密,即入口节点解开第一层加密,中间节点解开第二层加密,出口节点解开第三层加密;通过层层加密让流量监控无法嗅探明文数据。
暗网还在呈现缓慢增长的态势,随着暗网用户的增多,黑市及加密数字货币的发展,更多的黑客在利益的的驱动下开展各种活动,把之前通过表网(互联网)传播的非法交易更多的转移至暗网,通过各种技术手段躲避追踪。对监管和调查造成了一定的困难。
申请公布号为CN108829792A的发明专利申请公开了一种基于scrapy的分布式暗网资源挖掘系统及方法,如图1所示,其中系统包括:中心节点控制模块和从节点爬取模块,所述中心节点控制模块包括爬虫种子任务队列、任务预处理模块、暗网任务队列和明网任务队列,所述从节点爬取模块包括暗网爬取模块、明网爬取模块和爬虫管理器。
所述爬虫种子任务队列用于存储用户提供的待爬取种子任务,以及从节点爬取模块提取的新的待爬取的种子任务;所述任务预处理模块用于对爬虫种子任务队列中的任务进行匹配以及去重过滤,并将属于暗网的任务存入暗网任务队列;所述任务预处理模块包括暗网插件和明网插件;所述暗网插件用于暗网待爬取任务匹配,并实现暗网待爬取任务的判重,将未被爬取过的任务存入Redis数据库中用于存储暗网任务的key中;所述明网插件用于明网待爬取任务匹配,并实现明网待爬取任务的判重,将未被爬取过的任务存入Redis数据库中用于存储明网任务的key中。
所述暗网爬取模块中的暗网爬虫用于从暗网任务队列中读取暗网爬取任务,基于暗网爬取任务下载对应的暗网网页,并从暗网网页中提取新的暗网域名,将提取到的新的暗网域名存入爬虫种子任务队列。所述明网爬取模块中的明网爬虫用于从明网任务队列中读取明网爬取任务,基于明网爬取任务下载对应的明网网页,并从明网网页中提取新的明网域名和暗网域名,将提取到的新的明网域名和暗网域名存入爬虫种子任务队列。
该发明专利申请可利用爬虫技术爬取暗网域名,但无法获取其他信息,对于监控暗网,挖掘非法情报作用有限。
可见,现有技术还有待于改进和发展。
发明内容
鉴于上述现有技术的不足,本发明的目的在于提供一种暗网监控方法、系统及存储介质,旨在解决现有技术可利用爬虫技术爬取暗网域名,但无法获取其他信息,对于监控暗网,挖掘非法情报作用有限的问题。
本发明的技术方案如下:
一种暗网监控方法,其包括:
通过VPS技术部署数据爬虫节点,实时爬取暗网内的中继节点信息及出口节点信息;
根据爬取的信息建立并实时更新用于记载中继节点信息的中继节点列表,以及用于记载出入口节点信息的出入口节点列表;
实时监控中继节点列表内的中继节点数据流转信息,以及出入口节点列表内的出口节点数据收取信息,并爬取出口节点所接收的明文数据;
根据所爬取的出口节点信息及中继节点信息进行数据匹配,追溯数据流转路线,获得入口节点信息,构建完整数据流转链并存储;
接收执法人员输入的关键词,将关键词与所爬取的明文数据进行数据碰撞,并显示具有所述关键词的所有完整数据流转链。
上述方案的效果在于:在正常的数据流转过程中,入口节点A是将数据直接发送给出口节点B。但在Tor网络的数据流转过程中,入口节点A首先将数据发送给中继节点C,然后中继节点C将数据发送给中继节点D,而后中继节点D将数据发送给中继节点E,最后中继节点E才将数据发送给出口节点B;在整个过程中,之所以隐秘性强,是因为1、出口节点B只知晓中继节点E的IP,中继节点E只知晓中继节点D的IP,中继节点D只知晓中继节点C的IP,入口节点A的IP只有中继节点C知晓;2、数据被层层加密,只有到达出口节点B之后才会彻底完成解密。本发明通过VPS技术部署数据爬虫节点,分布式爬取中继节点信息及出口节点信息,以此分别建立节点列表,而后即可根据节点列表对中继节点及出口节点进行监控,通过监控接收明文数据的出口节点可以获得上级中继节点的IP信息,根据对上级中继节点的监控数据,则可以再次获得更上一级的中继节点的IP信息,以此类推,即可获得入口节点的IP信息,进而可以获知数据发送方、数据接收方及双方交流的数据,解决了现有技术可利用爬虫技术爬取暗网域名,但无法获取其他信息,对于监控暗网,挖掘非法情报作用有限的问题。
在进一步地优选方案中,所述暗网监控方法还包括步骤:
通过VPS技术部署数据爬虫节点,爬取暗网网站信息并进行存储,所述暗网网站信息包括:域名及类型;
根据暗网网站类型编写对应的爬虫插件,并利用所述爬虫插件爬取所述暗网网站的内容信息;
对爬取的内容信息进行分词解析,提取解析得到的非法信息并存储。
上述方案的效果在于:暗网网站类型不同,信息的流转方式不同,比如暗网市场网站上的数据主要是商品标题、商品链接、卖家、售卖数及所属市场等等,而暗网论坛网站上的数据主要是帖子链接、帖子标题、发布者及参与讨论者等等,因此,本发明通过专用的爬虫插件对暗网网站数据进行爬取,提高了所爬取数据的完整性、准确性及效率。
在进一步地优选方案中,所述内容信息的爬取方法具体为:当用户访问网站产生Http请求并调用API接口时,通过API接口回调数据。
上述方案的效果在于:API(Application Program Interface)即应用程序接口,是一组定义、程序及协议的集合,通过 API 接口可以实现计算机软件之间的相互通信;对于暗网及暗网用户而言,匿名性的体现之一是:访问普通网站时,网站无法得知访问者IP地址;而本发明通过上述方案,即可通过API接口回调的数据获取最终一级的中继节点IP,而后通过监控追溯数据流转路线(具体如上文所述)来追踪访问普通网站的访问者IP地址,解决访问者IP匿名的问题;同时,可通过API接口回调数据获得访问者所浏览的信息(即出口节点所接收的信息),将其与访问者IP对应存储,即可对相应用户做综合分析,从而对用户进行特征提取,形成用户画像,以便对危险用户或疑似犯罪分子的用户进行重点监控。
在进一步地优选方案中,所述当用户访问网站产生Http请求并调用API接口时,通过API接口回调数据的步骤之后包括:将回调的数据进行分词解析,根据解析结果生成非法信息列表及非法信息详情,并将所述非法信息列表存储于ES数据库,将所述非法信息详情存储于Mongo数据库。
上述方案的效果在于:ES(ElasticSearc)数据库是一个基于Lucene的搜索服务器,它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口,Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,能够达到实时搜索,稳定、可靠且快速,安装使用方便。而Mongo数据库是一个基于分布式文件存储的数据库,旨在为WEB应用提供可扩展的高性能数据存储解决方案,其支持的数据结构非常松散,是类似json的bjson格式,因此可以存储比较复杂的数据类型。本发明利用ES数据库的强大搜索功能存储非法信息列表,以便于利用非法信息列表进行案件数据碰撞,快速锁定与非法案件相关的信息,为快速高效侦破案件提供线索;而同时使用Mongo数据库一方面是为了利用Mongo数据库存储较为复杂的暗网数据,另一方面是为了利用其便于扩展的特性,为后续扩展数据库做好铺垫。
在进一步地优选方案中,所述对爬取的内容信息进行分词解析,提取解析得到的非法信息并存储的步骤之后还包括:对解析得到的非法信息按照非法事件类别、关键词及用户区域进行数据量统计及排序,并将统计结果及排序列表存储于Redis数据库。
上述方案的效果在于:Redis是一个key-value存储系统,其支持包括string(字符串)、list(链表)、set(集合)和zset(有序集合),这些数据类型都支持push/pop、add/remove及取交集并集、差集及更丰富的操作。在此基础上,Redis支持各种不同方式的排序,利用该特性,本发明将数据统计结果及排序列表存储于Redis数据库,以方便数据统计结果及排序列表的实时更新,并提高数据处理效率。且本发明还通过统计非法事件类别及关键词的数据量并进行排序以帮助执法机构了解暗网中所涉及非法事件类别的态势,以便对违法事件进行有效防范;同样的,本发明通过统计用户区域并进行排序,方便执法机构全面了解中继节点的主要分布区域,以便进行相关区域的重点监控。
在进一步地优选方案中,所述对解析得到的非法信息按照非法事件类别、关键词及用户区域进行数据量统计及排序,并将统计结果及排序列表存储于Redis数据库的步骤之后还包括:
在WebUI上构建世界地图,并将中继节点的位置显示于世界地图;
在接收到对中继节点的点击操作后,显示所述中继节点的详细信息。
上述方案的效果在于:执法机构可在地图上清楚查看到中继节点的位置分布情况,掌握中继节点位置信息的同时,通过点击中继节点直接获取相应节点的详细信息,提高了使用方便性及快捷性。
在进一步地优选方案中,所述暗网监控方法还包括步骤:在WebUI首页上显示暗网入口、暗网资讯、搜索框、统计页面快捷键及重点监控域名,所述搜索框下显示有关联关键词榜单及搜索榜单,所述统计页面快捷键链接统计界面,所述统计界面显示有当前受监控暗网数量及明细、暗网站点数量及明细、暗网终端用户数量及明细与非法关键词数量及明细。
上述方案的效果在于:暗网资讯可为不了解暗网的执法人员做科普,暗网入口则可为执法人员快速进入暗网侦查提供通道,而无需从数据库重新调取;关联关键词榜单及搜索榜单可便于执法人员了解暗网热点信息,与非法案件进行快速匹配;统计界面显示的内容则可便于执法人员了解暗网各方面的态势,深入了解暗网。
在进一步地优选方案中,所述暗网监控方法还包括步骤:预先构建虚拟暗网账号及暗网数据监控计算机;
所述对爬取的内容信息进行分词解析,提取解析得到的非法信息并存储的步骤之后还包括:将恶性事件关键词与所提取的非法信息进行数据碰撞,挖掘恶性事件信息,并在暗网数据监控计算机上运行虚拟暗网账号进行恶性事件监控。
上述方案的效果在于:在非法事件中有一些极恶性事件,比如暗网红房子,但由于暗网的隐蔽性,暗网数据难以采集,恶性事件难以发现,亦难以采证;本发明通过挖掘恶性事件信息(比如时间、域名及事件类型等),而后利用虚拟暗网账号及暗网数据监控计算机自动监控恶性事件的整个过程,以便提取有用信息,进行犯罪分子身份挖掘;结合对中继节点及出口节点的监控,甚至有概率在犯罪事件发生之前,发现犯罪分子IP、身份及位置等信息,阻止恶性事件的发生。
一种用于实现暗网监控方法的系统,其包括存储器及处理器,所述存储器用于存储暗网监控程序,所述处理器用于运行所述暗网监控程序以实现如上所述的暗网监控方法。所述系统包括暗网监控方法的所有技术特征,因此也具有上述暗网监控方法的所有技术效果,不再赘述。
一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的暗网监控方法的步骤。所述存储介质包括上述暗网监控方法的所有技术特征,因此也具有上述暗网监控方法的所有技术效果,不再赘述。
与现有技术相比,本发明提供的暗网监控方法,包括:通过VPS技术部署数据爬虫节点,实时爬取暗网内的中继节点信息及出口节点信息;实时监控中继节点数据流转信息及出口节点数据收取信息,并爬取出口节点所接收的明文数据;进行数据匹配,追溯数据流转路线,获得入口节点信息;接收执法人员输入的关键词,进行数据碰撞,并显示具有所述关键词的所有完整数据流转链。本发明所提供的暗网监控方法,通过VPS技术部署数据爬虫节点,分布式爬取中继节点信息及出口节点信息,以此分别建立节点列表,而后即可根据节点列表对中继节点及出口节点进行监控,通过监控接收明文数据的出口节点可以获得上级中继节点的IP信息,根据对上级中继节点的监控数据,则可以再次获得更上一级的中继节点的IP信息,以此类推,即可获得入口节点的IP信息,进而可以获知数据发送方、数据接收方及双方交流的数据。
附图说明
图1是CN108829792A所公开基于scrapy的分布式暗网资源挖掘系统的原理框图。
图2是本发明较佳实施例中暗网监控方法的流程图。
具体实施方式
本发明提供一种暗网监控方法、系统及存储介质,为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明中的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所运行的单数形式的“一种”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中运行的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所运行的词语“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本发明提供了一种暗网监控方法,如图2所示,其包括:
S100、通过VPS技术部署数据爬虫节点,实时爬取暗网内的中继节点信息及出口节点信息。
暗网之所以具有隐秘性,一是因为入口节点并不与出口节点相连接进行数据传输,而是通过中继节点进行跳转,中继节点越多隐秘性越高;二是中继节点只知数据由谁发来,却并不知晓数据发送去了何方;三是流转在暗网的明文数据是层层加密的,至少具有三层密钥加密,入口节点解开第一层加密,中继节点解开第二层加密,出口节点解开第三层加密而后才可读取数据。从上述内容可以得知,中继节点信息并非不可获取,至少中继节点的IP信息(代理IP的问题已被现有技术所解决,本发明对此不做赘述,亦不做具体限定)、所转发明文数据的来源(即其上级中继节点或入口节点的IP信息)等皆可获得,据此,本发明采用爬虫进行数据爬取。在进行数据爬取后,可进行非法关键词(或已知暗语)的筛选,仅对筛选后的数据进行处理,以提高数据处理速度,进行高方向性的重点监控。
VPS(Virtual Private Server,虚拟专用服务器)技术,将一台服务器分割成多个虚拟专享服务器的优质服务,实现VPS的技术分为容器技术和虚拟化技术;在容器或虚拟机中,每个VPS都可选配独立公网IP地址、独立操作系统、实现不同VPS间磁盘空间、内存、CPU资源、进程和系统配置的隔离。本发明利用VPS技术可分割的特性,高效、高全面性、高准确性的爬取数据。
S200、根据爬取的信息建立并实时更新用于记载中继节点信息的中继节点列表,以及用于记载出入口节点信息的出入口节点列表。
在开始时,中继节点列表及出入口节点列表皆为空表,中继节点及出口节点可通过实时爬取直接写入,而入口节点则需要根据S400的解析结果来获取进而写入。在实时更新的过程中,需要将新获取的数据与已有数据取并集,而后进行覆盖性更新;进一步地,本发明将中继节点列表及出入口节点列表存储于Redis数据库,利用Redis数据库的特性进行取并集操作。Redis是一个key-value存储系统,其支持包括string(字符串)、list(链表)、set(集合)和zset(有序集合),这些数据类型都支持push/pop、add/remove及取交集并集、差集及更丰富的操作。
S300、实时监控中继节点列表内的中继节点数据流转信息,以及出入口节点列表内的出口节点数据收取信息,并爬取出口节点所接收的明文数据。正如上文所述,暗网之所以具有隐秘性,一是因为入口节点并不与出口节点相连接进行数据传输,而是通过中继节点进行跳转,中继节点越多隐秘性越高;二是中继节点只知数据由谁发来,却并不知晓数据发送去了何方;三是流转在暗网的明文数据是层层加密的,至少具有三层密钥加密,入口节点解开第一层加密,中继节点解开第二层加密,出口节点解开第三层加密而后才可读取数据。因此,本发明可通过监控活动中继节点的数据中转信息获知:中继节点IP、中继节点在什么时间、接收了来自于哪个节点(节点IP)发送来的数据、出口节点获取的明文数据是什么,而后进行数据梳理,即可获取所需要的信息。
S400、根据所爬取的出口节点信息及中继节点信息进行数据匹配,追溯数据流转路线,获得入口节点信息,构建完整数据流转链并存储。
比如通过监控活动的中继节点可以获得节点的信息,比如节点A、节点B、节点C、节点D、节点E、节点F及节点G的相关信息,而节点G接收数据后完成了解密,则节点G为出口节点,通过数据匹配及追踪发现,节点G所接收的数据来源于节点F,节点F所接收的数据来源于节点C,节点C所接收的数据来源于节点A,节点A所接收的数据来源于网站;以此即可获得整个数据流转路线,从而构建完整数据流转链。
S500、接收执法人员输入的关键词,将关键词与所爬取的明文数据进行数据碰撞,并显示具有所述关键词的所有完整数据流转链。
数据碰撞:具体而言,就是通过专门的计算机软件对两个或两个以上的数据库/数据集进行碰撞比对,并对由此产生的重合数据、交叉数据进行深度分析。比如:输入“交易黑客技术”即可获得所有有关于此的所有完整数据流转链,进而获悉交易双方信息。
本发明通过VPS技术部署数据爬虫节点,分布式爬取中继节点信息及出口节点信息,以此分别建立节点列表,而后即可根据节点列表对中继节点及出口节点进行监控,通过监控接收明文数据的出口节点可以获得上级中继节点的IP信息,根据对上级中继节点的监控数据,则可以再次获得更上一级的中继节点的IP信息,以此类推,即可获得入口节点的IP信息,进而可以获知数据发送方、数据接收方及双方交流的数据,解决了现有技术可利用爬虫技术爬取暗网域名,但无法获取其他信息,对于监控暗网,挖掘非法情报作用有限的问题。
在本发明进一步地较佳实施例中,所述暗网监控方法还包括步骤:
通过VPS技术部署数据爬虫节点,爬取暗网网站信息并进行存储,所述暗网网站信息包括:域名及类型;
根据暗网网站类型编写对应的爬虫插件,并利用所述爬虫插件爬取所述暗网网站的内容信息;
对爬取的内容信息进行分词解析,提取解析得到的非法信息并存储。
暗网网站类型不同,信息的流转方式不同,比如暗网市场网站上的数据主要是商品标题、商品链接、卖家、售卖数及所属市场等等,而暗网论坛网站上的数据主要是帖子链接、帖子标题、发布者及参与讨论者等等,因此,本发明通过专用的爬虫插件对暗网网站数据进行爬取,提高了所爬取数据的完整性、准确性及效率。
进一步地,所述内容信息的爬取方法具体为:当用户访问网站产生Http请求并调用API接口时,通过API接口回调数据。本发明通过API接口回调的数据获取最终一级的中继节点IP,而后通过监控追溯数据流转路线(具体如上文所述)来追踪访问普通网站的访问者IP地址,解决访问者IP匿名的问题;同时,可通过API接口回调数据获得访问者所浏览的信息(即出口节点所接收的信息),将其与访问者IP对应存储,即可对相应用户做综合分析,从而对用户进行特征提取,形成用户画像,以便对危险用户或疑似犯罪分子的用户进行重点监控。
优选所述当用户访问网站产生Http请求并调用API接口时,通过API接口回调数据的步骤之后包括:将回调的数据进行分词解析,根据解析结果生成非法信息列表及非法信息详情,并将所述非法信息列表存储于ES数据库,将所述非法信息详情存储于Mongo数据库。本发明利用ES数据库的强大搜索功能存储非法信息列表,以便于利用非法信息列表进行案件数据碰撞,快速锁定与非法案件相关的信息,为快速高效侦破案件提供线索;而同时使用Mongo数据库一方面是为了利用Mongo数据库存储较为复杂的暗网数据,另一方面是为了利用其便于扩展的特性,为后续扩展数据库做好铺垫。
较佳地是,所述对爬取的内容信息进行分词解析,提取解析得到的非法信息并存储的步骤之后还包括:对解析得到的非法信息按照非法事件类别、关键词及用户区域进行数据量统计及排序,并将统计结果及排序列表存储于Redis数据库。Redis是一个key-value存储系统,其支持包括string(字符串)、list(链表)、set(集合)和zset(有序集合),这些数据类型都支持push/pop、add/remove及取交集并集、差集及更丰富的操作。在此基础上,Redis支持各种不同方式的排序,利用该特性,本发明将数据统计结果及排序列表存储于Redis数据库,以方便数据统计结果及排序列表的实时更新,并提高数据处理效率。且本发明还通过统计非法事件类别及关键词的数据量并进行排序以帮助执法机构了解暗网中所涉及非法事件类别的态势,以便对违法事件进行有效防范;同样的,本发明通过统计用户区域并进行排序,方便执法机构全面了解中继节点的主要分布区域,以便进行相关区域的重点监控。
进一步地,所述对解析得到的非法信息按照非法事件类别(包含军火、毒品、涉恐、色情、交易黑客技术、虚拟货币、敏感数据、禁售物品、非法网站等)、关键词及用户区域进行数据量统计及排序,并将统计结果及排序列表存储于Redis数据库的步骤之后还包括:
在WebUI上构建世界地图,并将中继节点的位置显示于世界地图;
在接收到对中继节点的点击操作后,显示所述中继节点的详细信息。
执法机构可在地图上清楚查看到中继节点的位置分布情况,掌握中继节点位置信息的同时,通过点击中继节点直接获取相应节点的详细信息,提高了使用方便性及快捷性。
较佳地是,所述暗网监控方法还包括步骤:在WebUI首页上显示暗网入口(直接提供进入渠道,输入已获取的暗网地址,直接进入暗网)、暗网资讯(暗网发展史及重大事件科普:如汉莎(Hansa), “丝绸之路”和AlphaBay全球三大暗网集市的破获全历程;“暗网”从「匿名的信息交流」进化到了「匿名的价值交换」的里程碑事件等)、搜索框、统计页面快捷键及重点监控域名,所述搜索框下显示有关联关键词榜单及搜索榜单,所述统计页面快捷键链接统计界面,所述统计界面显示有当前受监控暗网数量及明细、暗网站点数量及明细、暗网终端用户数量及明细与非法关键词数量及明细。暗网资讯可为不了解暗网的执法人员做科普,暗网入口则可为执法人员快速进入暗网侦查提供通道,而无需从数据库重新调取;关联关键词榜单及搜索榜单可便于执法人员了解暗网热点信息,与非法案件进行快速匹配;统计界面显示的内容则可便于执法人员了解暗网各方面的态势,深入了解暗网。
根据本发明地另一方面,所述暗网监控方法还包括步骤:预先构建虚拟暗网账号及暗网数据监控计算机;所述对爬取的内容信息进行分词解析,提取解析得到的非法信息并存储的步骤之后还包括:将恶性事件关键词与所提取的非法信息进行数据碰撞,挖掘恶性事件信息,并在暗网数据监控计算机上运行虚拟暗网账号进行恶性事件监控。在非法事件中有一些极恶性事件,比如暗网红房子,但由于暗网的隐蔽性,暗网数据难以采集,恶性事件难以发现,亦难以采证;本发明通过挖掘恶性事件信息(比如时间、域名及事件类型等),而后利用虚拟暗网账号及暗网数据监控计算机自动监控恶性事件的整个过程,以便提取有用信息,进行犯罪分子身份挖掘;结合对中继节点及出口节点的监控,甚至可以在犯罪事件发生之前,发现犯罪分子IP、身份及位置等信息,阻止恶性事件的发生。
一种用于实现暗网监控方法的系统,其包括存储器及处理器,所述存储器用于存储暗网监控程序,所述处理器用于运行所述暗网监控程序以实现如上所述的暗网监控方法。所述系统包括暗网监控方法的所有技术特征,因此也具有上述暗网监控方法的所有技术效果,不再赘述。
所述系统旨在监管暗网数据,集统计运算、智能搜索运算、单独暗网入口及暗网资讯科普于一体,将全方位展现暗网现状历史,溯源用户分布、从国家、操作系统、数据来源等方式去分析用户群体。
本发明中的系统主要包括三个模块,分别是Web应用模块、数据获取模块及数据处理模块,其中Web应用模块使用了RESTFul接口,前后端分离的架构,保证了开发效率,减少了代码耦合、增加了代码的可扩展性,Web后台使用Python Flask框架,实现了轻量快速开发;数据获取模块包括爬虫功能单元及任务调度单元,爬虫功能单元通过针对不同网站编写对应的爬虫插件,实现了良好的可扩展性,任务调度单元和爬虫功能单元分离,支持自定义任务队列和分布式爬取。爬虫功能单元可实时爬取暗网网络状态统计数据,包括暗网中继节点信息、暗网用户总量、暗网用户分布及暗网网站数量等。数据处理模块实现了亿万级数据的快速全文检索,提供http数据搜索接口,为Web应用数据搜索功能提供数据支撑。
所述系统的架构分为四层,分别为数据资源层、数据处理层、业务支撑层及应用层,所述数据资源层包括Mongo数据库、Redis数据库及ES数据库,各个数据库的作用具体如上文所述;数据处理层用于当用户访问网站产生Http请求并调用API接口时,通过API接口回调数据;所述业务支撑层主要用于回传到数据中心平台,获得业务服务支持、爬虫技术支持、安全服务支持、消息服务支持和表单服务支持;应用层外部表现为:关键字统计、数据分类统计(分类联动筛选不同数据源的帖子、网站及页面内容等)、服务分部图(主要统计Authority、HSDir、Stable和V2Dir四个节点在全球的分布情况如数量、性能、流量等)、暗网终端用户、暗网站点统计、当前受监控暗网数量、搜索榜单、关联关键字榜单(Top10关键字排行榜,用户可快速查看搜索结果,对检测到的海量犯罪数据进行大数据分析进行关联关键字排行)、搜索结果列表、统计首页、搜索界面、暗网入口、暗网资讯及结果列表抓取(包含网址、时间、重要字段信息如比特币地址、论坛ID、手机号码、违法网站等。快速高效提供侦办线索,将人工分析和系统自动分析结合起来,提升信息使用效率,让信息发挥最大的价值)。
一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的暗网监控方法的步骤。所述存储介质包括上述暗网监控方法的所有技术特征,因此也具有上述暗网监控方法的所有技术效果,不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(SyNchliNk) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (10)

1.一种暗网监控方法,其特征在于,包括:
通过VPS技术部署数据爬虫节点,实时爬取暗网内的中继节点信息及出口节点信息;
根据爬取的信息建立并实时更新用于记载中继节点信息的中继节点列表,以及用于记载出入口节点信息的出入口节点列表;
实时监控中继节点列表内的中继节点数据流转信息,以及出入口节点列表内的出口节点数据收取信息,并爬取出口节点所接收的明文数据;
根据所爬取的出口节点信息及中继节点信息进行数据匹配,追溯数据流转路线,获得入口节点信息,构建完整数据流转链并存储;
接收执法人员输入的关键词,将关键词与所爬取的明文数据进行数据碰撞,并显示具有所述关键词的所有完整数据流转链。
2.根据权利要求1所述的暗网监控方法,其特征在于,所述暗网监控方法还包括步骤:
通过VPS技术部署数据爬虫节点,爬取暗网网站信息并进行存储,所述暗网网站信息包括:域名及类型;
根据暗网网站类型编写对应的爬虫插件,并利用所述爬虫插件爬取所述暗网网站的内容信息;
对爬取的内容信息进行分词解析,提取解析得到的非法信息并存储。
3.根据权利要求2所述的暗网监控方法,其特征在于,所述内容信息的爬取方法具体为:当用户访问网站产生Http请求并调用API接口时,通过API接口回调数据。
4.根据权利要求3所述的暗网监控方法,其特征在于,所述当用户访问网站产生Http请求并调用API接口时,通过API接口回调数据的步骤之后包括:将回调的数据进行分词解析,根据解析结果生成非法信息列表及非法信息详情,并将所述非法信息列表存储于ES数据库,将所述非法信息详情存储于Mongo数据库。
5.根据权利要求4所述的暗网监控方法,其特征在于,所述对爬取的内容信息进行分词解析,提取解析得到的非法信息并存储的步骤之后还包括:对解析得到的非法信息按照非法事件类别、关键词及用户区域进行数据量统计及排序,并将统计结果及排序列表存储于Redis数据库。
6.根据权利要求5所述的暗网监控方法,其特征在于,所述对解析得到的非法信息按照非法事件类别、关键词及用户区域进行数据量统计及排序,并将统计结果及排序列表存储于Redis数据库的步骤之后还包括:
在WebUI上构建世界地图,并将中继节点的位置显示于世界地图;
在接收到对中继节点的点击操作后,显示所述中继节点的详细信息。
7.根据权利要求6所述的暗网监控方法,其特征在于,所述暗网监控方法还包括步骤:在WebUI首页上显示暗网入口、暗网资讯、搜索框、统计页面快捷键及重点监控域名,所述搜索框下显示有关联关键词榜单及搜索榜单,所述统计页面快捷键链接统计界面,所述统计界面显示有当前受监控暗网数量及明细、暗网站点数量及明细、暗网终端用户数量及明细与非法关键词数量及明细。
8.根据权利要求7所述的暗网监控方法,其特征在于,所述暗网监控方法还包括步骤:预先构建虚拟暗网账号及暗网数据监控计算机;
所述对爬取的内容信息进行分词解析,提取解析得到的非法信息并存储的步骤之后还包括:将恶性事件关键词与所提取的非法信息进行数据碰撞,挖掘恶性事件信息,并在暗网数据监控计算机上运行虚拟暗网账号进行恶性事件监控。
9.一种用于实现暗网监控方法的系统,其特征在于,包括存储器及处理器,所述存储器用于存储暗网监控程序,所述处理器用于运行所述暗网监控程序以实现如权利要求1至8中任意一项所述的暗网监控方法。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8中任意一项所述的暗网监控方法的步骤。
CN202111324532.7A 2021-11-10 2021-11-10 一种暗网监控方法、系统及存储介质 Active CN114039782B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111324532.7A CN114039782B (zh) 2021-11-10 2021-11-10 一种暗网监控方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111324532.7A CN114039782B (zh) 2021-11-10 2021-11-10 一种暗网监控方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN114039782A true CN114039782A (zh) 2022-02-11
CN114039782B CN114039782B (zh) 2022-10-14

Family

ID=80143752

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111324532.7A Active CN114039782B (zh) 2021-11-10 2021-11-10 一种暗网监控方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN114039782B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114915505A (zh) * 2022-07-18 2022-08-16 中国电子科技集团公司第三十研究所 一种基于多维度因子的传输链路选取方法及系统
CN115296892A (zh) * 2022-08-02 2022-11-04 中国电子科技集团公司信息科学研究院 数据信息服务系统
CN117764688A (zh) * 2024-01-26 2024-03-26 喀斯玛(北京)科技有限公司 一种针对商品画像的智能风控方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126747A (zh) * 2016-07-14 2016-11-16 北京邮电大学 基于爬虫的数据获取方法及装置
CN109547281A (zh) * 2018-09-25 2019-03-29 北京计算机技术及应用研究所 一种Tor网络的溯源方法
CN109873793A (zh) * 2017-12-04 2019-06-11 北京明朝万达科技股份有限公司 一种基于样本流量分析的暗网发现、溯源方法及系统
CN110119469A (zh) * 2019-05-22 2019-08-13 北京计算机技术及应用研究所 一种面向暗网的数据采集与分析系统及方法
WO2020171410A1 (ko) * 2019-02-19 2020-08-27 (주)에스투더블유랩 멀티 도메인에서 데이터를 수집하는 방법, 장치 및 컴퓨터 프로그램

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126747A (zh) * 2016-07-14 2016-11-16 北京邮电大学 基于爬虫的数据获取方法及装置
CN109873793A (zh) * 2017-12-04 2019-06-11 北京明朝万达科技股份有限公司 一种基于样本流量分析的暗网发现、溯源方法及系统
CN109547281A (zh) * 2018-09-25 2019-03-29 北京计算机技术及应用研究所 一种Tor网络的溯源方法
WO2020171410A1 (ko) * 2019-02-19 2020-08-27 (주)에스투더블유랩 멀티 도메인에서 데이터를 수집하는 방법, 장치 및 컴퓨터 프로그램
CN110119469A (zh) * 2019-05-22 2019-08-13 北京计算机技术及应用研究所 一种面向暗网的数据采集与分析系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱桂春: "《暗网追踪溯源技术研究》", 《中国优秀硕士论文全文数据库》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114915505A (zh) * 2022-07-18 2022-08-16 中国电子科技集团公司第三十研究所 一种基于多维度因子的传输链路选取方法及系统
CN115296892A (zh) * 2022-08-02 2022-11-04 中国电子科技集团公司信息科学研究院 数据信息服务系统
CN115296892B (zh) * 2022-08-02 2023-11-24 中国电子科技集团公司信息科学研究院 数据信息服务系统
CN117764688A (zh) * 2024-01-26 2024-03-26 喀斯玛(北京)科技有限公司 一种针对商品画像的智能风控方法和系统

Also Published As

Publication number Publication date
CN114039782B (zh) 2022-10-14

Similar Documents

Publication Publication Date Title
CN114039782B (zh) 一种暗网监控方法、系统及存储介质
US10268840B2 (en) Systems and methods of determining compromised identity information
Benjamin et al. Exploring threats and vulnerabilities in hacker web: Forums, IRC and carding shops
US11928245B2 (en) Systems and methods of determining compromised identity information
US10599872B2 (en) Systems and methods of determining compromised identity information
Zulkarnine et al. Surfacing collaborated networks in dark web to find illicit and criminal content
US8359651B1 (en) Discovering malicious locations in a public computer network
Catanese et al. Forensic analysis of phone call networks
CN110119469A (zh) 一种面向暗网的数据采集与分析系统及方法
CN111476469B (zh) 一种拓客方法、终端设备及存储介质
Liu et al. Identifying, collecting, and monitoring personally identifiable information: From the dark web to the surface web
Butler et al. REAPER: an automated, scalable solution for mass credential harvesting and OSINT
Singh et al. A survey on different phases of web usage mining for anomaly user behavior investigation
Labrador et al. Examining the trends and operations of modern Dark-Web marketplaces
Baravalle et al. Dark web markets: turning the lights on AlphaBay
Park A study on analytical visualization of deep web
Wang et al. Characterizing cryptocurrency-themed malicious browser extensions
Alotaibi et al. Computer forensics: dark net forensic framework and tools used for digital evidence detection
Yang et al. Crawling and analysis of dark network data
Cahyani et al. An evidence‐based forensic taxonomy of Windows phone dating apps
Nair et al. A tool to extract onion links from Tor hidden services and identify illegal activities
Cigoj et al. A large-scale security analysis of web vulnerability: Findings, challenges and remedies
Wang et al. Achieve web search privacy by obfuscation
CN111917718A (zh) 一种个人信息泄露监测方法和装置
Chen et al. A Proposed Method of Information Mining for Cyber Black Market Oriented to Tor Anonymous Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant