CN109902212A - 一种自定义动态扩展的暗网爬虫系统 - Google Patents

一种自定义动态扩展的暗网爬虫系统 Download PDF

Info

Publication number
CN109902212A
CN109902212A CN201910071997.2A CN201910071997A CN109902212A CN 109902212 A CN109902212 A CN 109902212A CN 201910071997 A CN201910071997 A CN 201910071997A CN 109902212 A CN109902212 A CN 109902212A
Authority
CN
China
Prior art keywords
crawler
module
darknet
webpage
tor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910071997.2A
Other languages
English (en)
Inventor
徐进
孙恩博
刘义铭
郭宇斌
吕泉池
陈周国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 30 Research Institute
Original Assignee
CETC 30 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 30 Research Institute filed Critical CETC 30 Research Institute
Priority to CN201910071997.2A priority Critical patent/CN109902212A/zh
Publication of CN109902212A publication Critical patent/CN109902212A/zh
Pending legal-status Critical Current

Links

Abstract

本发明公开了一种自定义动态扩展的暗网爬虫系统,包括:网页解析插件模块,对各类网页页面进行解析并将下一级站点链接输入给爬虫调度器;爬虫线程模块,负责执行各类网页爬虫过程;爬虫调度器模块,负责网页解析插件模块与爬虫线程之间的交互;并发模块,并发代理连接站点对网页页面进行下载,并且将网页页面数据输送给爬虫线程;负载均衡代理池管理模块:动态代理服务加载与管理,提供负载均衡功能。本发明保证了爬虫系统可用可维护性。动态加载tor代理池方式实现多站点页面并行下载,提高了爬虫系统完成爬取任务的时间效率。采用负载均衡代理池管理模块,对各tor代理的爬虫下载网页任务数量进行实时监控与均衡分配,实现了各tor代理的最大化使用。

Description

一种自定义动态扩展的暗网爬虫系统
技术领域
本发明涉及一种自定义动态扩展的暗网爬虫系统。
背景技术
暗网爬虫技术是挖掘暗网信息的一个关键技术,现有暗网爬虫系统主要是针对具体的站点页面,采用不同的爬虫解析方式,此种方法的爬虫系统固化,无法迭代以适应类型多变的网页数据的缺点,拓展性较差,站点变化时需要重新构造解析方法。同时,现有的暗网爬虫系统较关注爬虫解析本身,并未解决大量站点爬取的时间效率问题。
发明内容
由于暗网站点页面信息量巨大,对于爬虫系统来说,一方面暗网采用的是隐匿通信,其页面链接速度较慢,其爬取速度存在很大局限性,因此爬虫系统需要解决多站点同时高效率爬取的问题;另一方面由于网页信息结构的多样性,爬虫系统需要具有可维护性,即能够根据不同站点的爬虫要求,对爬虫系统进行拓展。实现暗网爬虫系统的执行效率和解析方法可拓展具有重要的研究意义和应用价值,本发明即解决了爬虫系统的高效以及易拓展问题。
本发明的目的是通过以下技术方案来实现的:
一种自定义动态扩展的暗网爬虫系统,包括:
网页解析插件模块,对各类网页页面进行解析并将下一级站点链接输入给爬虫调度器;
爬虫线程模块,负责执行各类网页爬虫过程;
爬虫调度器模块,负责网页解析插件模块与爬虫线程之间的交互;
并发模块,并发代理连接站点对网页页面进行下载,并且将网页页面数据输送给爬虫线程;
负载均衡代理池管理模块:动态代理服务加载与管理,提供负载均衡功能。
作为优选方式,爬虫系统的实现流程如下:
S1:启动爬虫系统;
S2:网页解析插件模块初始化获得初始爬虫站点;
S3:爬虫站点放入爬虫调度器模块中;
S4:爬虫调度器将站点分配给爬虫线程模块;
S5:爬虫线程模块的各爬虫线程经过并发模块并行对各自站点进行代理连接,同时负载均衡代理池管理模块将tor代理分配给各爬虫网页下载任务,并监控各tor代理正在执行的网页下载数量,开始下载暗网网页页面;
S6:网页页面通过并发模块传给各自爬虫线程,并经过爬虫调度器模块传给各自网页解析插件模块进行网页解析。
作为优选方式,它还包括步骤S7:获得下一级爬虫站点链接。
作为优选方式,循环步骤S3-S7,直至网页全部爬取完毕。
作为优选方式,负载均衡代理池管理模块根据各tor代理正在执行的网页下载数量,实时调整tor代理分配的爬虫网页下载任务,保证各tor代理执行下载任务的均衡性。
本发明的有益效果是:
(1)在爬虫的网页解析插件化模块中采用了灵活的可拓展插件,对于不同的网站爬取任务,无需重新修改爬虫系统的网页解析方法,只需将当前站点的网页解析插件写入接口,即可实现该网站的爬取,保证了爬虫系统的可用可维护性。
(2)在爬取暗网站点网页时,采用动态加载tor代理池方式,实现多站点页面并行下载,相比单任务爬取方式,此种方式大大提高了爬虫系统完成爬取任务的时间效率。同时,采用负载均衡代理池管理模块,对各tor代理的爬虫下载网页任务数量进行实时监控与均衡分配,实现了各tor代理的最大化使用。
附图说明
图1为本方法中暗网爬虫框架实现流程;
图2为一种自定义动态扩展的暗网爬虫系统框架图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
如图1所示,一种自定义动态扩展的暗网爬虫系统,包括:
网页解析插件模块,对各类网页页面进行解析并将下一级站点链接输入给爬虫调度器;
爬虫线程模块,负责执行各类网页爬虫过程;
爬虫调度器模块,负责网页解析插件模块与爬虫线程之间的交互;
并发模块,并发代理连接站点对网页页面进行下载,并且将网页页面数据输送给爬虫线程;
负载均衡代理池管理模块:动态代理服务加载与管理,提供负载均衡功能。
在一个优选实施例中,如图2所示,爬虫系统的实现流程如下:
S1:启动爬虫系统;
S2:网页解析插件模块初始化获得初始爬虫站点;
S3:爬虫站点放入爬虫调度器模块中;
S4:爬虫调度器将站点分配给爬虫线程模块;
S5:爬虫线程模块的各爬虫线程经过并发模块并行对各自站点进行代理连接,同时负载均衡代理池管理模块将tor代理分配给各爬虫网页下载任务,并监控各tor代理正在执行的网页下载数量,开始下载暗网网页页面;每个爬虫线程在执行过程中,通过并发模块,使用tor代理池将每个暗网站点进行并发连接,下载网页页面数据;
S6:网页页面通过并发模块传给(爬虫线程模块的)各自爬虫线程,并经过爬虫调度器模块传给各自网页解析插件模块进行网页解析。网页页面数据下载完毕后,经过并发模型,网页数据并行分配给各自爬虫线程,执行爬虫过程。在爬虫过程中,每个网页数据通过爬虫调度器分配给相应的网页解析插件,开始执行网页解析过程。
在一个优选实施例中,本发明还包括步骤S7:获得下一级爬虫站点链接(由网页解析插件模块解析网页后获得,如果没有则结束)。
在一个优选实施例中,循环步骤S3-S7,直至网页全部爬取完毕。解析后产生的下一级站点又分配给爬虫调度器,循环上述步骤,直至网页全部爬取完毕。
在一个优选实施例中,负载均衡代理池管理模块根据各tor代理正在执行的网页下载数量,实时调整tor代理分配的爬虫网页下载任务,保证各tor代理执行下载任务的均衡性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,应当指出的是,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种自定义动态扩展的暗网爬虫系统,其特征在于,包括:
网页解析插件模块,对各类网页页面进行解析并将下一级站点链接输入给爬虫调度器;
爬虫线程模块,负责执行各类网页爬虫过程;
爬虫调度器模块,负责网页解析插件模块与爬虫线程之间的交互;
并发模块,并发代理连接站点对网页页面进行下载,并且将网页页面数据输送给爬虫线程;
负载均衡代理池管理模块:动态代理服务加载与管理,提供负载均衡功能。
2.根据权利要求1所述的一种自定义动态扩展的暗网爬虫系统,其特征在于,爬虫系统的实现流程如下:
S1:启动爬虫系统;
S2:网页解析插件模块初始化获得初始爬虫站点;
S3:爬虫站点放入爬虫调度器模块中;
S4:爬虫调度器将站点分配给爬虫线程模块;
S5:爬虫线程模块的各爬虫线程经过并发模块并行对各自站点进行代理连接,同时负载均衡代理池管理模块将tor代理分配给各爬虫网页下载任务,并监控各tor代理正在执行的网页下载数量,开始下载暗网网页页面;
S6:网页页面通过并发模块传给各自爬虫线程,并经过爬虫调度器模块传给各自网页解析插件模块进行网页解析。
3.根据权利要求2所述的一种自定义动态扩展的暗网爬虫系统,其特征在于,它还包括步骤S7:获得下一级爬虫站点链接。
4.根据权利要求3所述的一种自定义动态扩展的暗网爬虫系统,其特征在于:循环步骤S3-S7,直至网页全部爬取完毕。
5.根据权利要求2-4任一所述的一种自定义动态扩展的暗网爬虫系统,其特征在于:负载均衡代理池管理模块根据各tor代理正在执行的网页下载数量,实时调整tor代理分配的爬虫网页下载任务,保证各tor代理执行下载任务的均衡性。
CN201910071997.2A 2019-01-25 2019-01-25 一种自定义动态扩展的暗网爬虫系统 Pending CN109902212A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910071997.2A CN109902212A (zh) 2019-01-25 2019-01-25 一种自定义动态扩展的暗网爬虫系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910071997.2A CN109902212A (zh) 2019-01-25 2019-01-25 一种自定义动态扩展的暗网爬虫系统

Publications (1)

Publication Number Publication Date
CN109902212A true CN109902212A (zh) 2019-06-18

Family

ID=66944110

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910071997.2A Pending CN109902212A (zh) 2019-01-25 2019-01-25 一种自定义动态扩展的暗网爬虫系统

Country Status (1)

Country Link
CN (1) CN109902212A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116635A (zh) * 2013-02-07 2013-05-22 中国科学院计算技术研究所 面向领域的暗网资源采集方法和系统
CN108494769A (zh) * 2018-03-21 2018-09-04 广州大学 一种Tor匿名网络中隐藏服务的溯源方法
CN108536691A (zh) * 2017-03-01 2018-09-14 中兴通讯股份有限公司 网页爬取方法和装置
CN108829792A (zh) * 2018-06-01 2018-11-16 成都康乔电子有限责任公司 基于scrapy的分布式暗网资源挖掘系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116635A (zh) * 2013-02-07 2013-05-22 中国科学院计算技术研究所 面向领域的暗网资源采集方法和系统
CN108536691A (zh) * 2017-03-01 2018-09-14 中兴通讯股份有限公司 网页爬取方法和装置
CN108494769A (zh) * 2018-03-21 2018-09-04 广州大学 一种Tor匿名网络中隐藏服务的溯源方法
CN108829792A (zh) * 2018-06-01 2018-11-16 成都康乔电子有限责任公司 基于scrapy的分布式暗网资源挖掘系统及方法

Similar Documents

Publication Publication Date Title
Gan et al. An open-source benchmark suite for microservices and their hardware-software implications for cloud & edge systems
Zhao et al. A novel pre-cache schema for high performance Android system
CN102880503B (zh) 数据分析系统及数据分析方法
CN104866327B (zh) 一种php开发方法及框架
CN102377799B (zh) 手机浏览器服务器端及其实现浏览器双线程模式的方法
CN107547629A (zh) 客户端静态资源下载的方法、装置、电子设备和可读介质
CN104583945A (zh) 一种应用升级方法、装置
CN106874189A (zh) 一种电网实时数据库系统的自动化测试系统的实现方法
CN103473034B (zh) 一种动态发布Web服务的方法和装置
CN102902576A (zh) 一种渲染网页的方法、服务器和系统
CN110019123A (zh) 一种数据迁移方法和装置
CN103678488B (zh) 分布式大批量动态任务引擎及采用其处理数据的方法
CN103338233B (zh) 负载均衡设备、Web服务器及请求信息处理方法和系统
CN104270443B (zh) 一种能够动态解析Web应用的云计算系统及方法
CN109902212A (zh) 一种自定义动态扩展的暗网爬虫系统
CN103488735B (zh) 终端浏览器页面刷新显示的方法及终端
CN112035112A (zh) 应用程序开发方法、系统、介质和电子设备
CN103488517B (zh) Php代码编译方法、php代码运行方法及装置
CN103425707A (zh) 数据分析方法和装置
CN106354796A (zh) 一种浏览器主页资源更新处理方法、装置及服务器
CN109002389A (zh) 页面自动化测试的方法和装置
CN113535419A (zh) 一种服务编排方法和装置
Wu et al. Optimizing network performance of computing pipelines in distributed environments
CN108536429B (zh) 一种开发软件的方法、装置、存储介质及电子设备
Milthorpe et al. Exploring the APGAS programming model using the LULESH proxy application

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination