CN106210050A - 一种智能反屏蔽网络爬虫系统 - Google Patents

一种智能反屏蔽网络爬虫系统 Download PDF

Info

Publication number
CN106210050A
CN106210050A CN201610546451.4A CN201610546451A CN106210050A CN 106210050 A CN106210050 A CN 106210050A CN 201610546451 A CN201610546451 A CN 201610546451A CN 106210050 A CN106210050 A CN 106210050A
Authority
CN
China
Prior art keywords
information
module
storehouse
user
shielding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610546451.4A
Other languages
English (en)
Inventor
李让剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Tianda Network Technology Co Ltd
Original Assignee
Anhui Tianda Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Tianda Network Technology Co Ltd filed Critical Anhui Tianda Network Technology Co Ltd
Priority to CN201610546451.4A priority Critical patent/CN106210050A/zh
Publication of CN106210050A publication Critical patent/CN106210050A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种智能反屏蔽网络爬虫系统,包括智能代理模块、用户行为模拟模块、信息爬取模块、信息整理储存模块、信息分析单元、屏蔽规则库、代理信息库、用户帐号库、用户行为规则库,其中所述方法包括智能代理模块通过主动触发模式判断是否启用IP代理;用户行为模拟模块通过模拟人的上网行为来规避目标网站的屏蔽机制,从而获得访问目标网站信息的权限。本发明的发明点在于主动触发的屏蔽判断机制,智能处理代理处理模块,严密的用户行为模拟,从而达到反屏蔽的效果,可以采集到所有正常用户可以访问的公开信息。

Description

一种智能反屏蔽网络爬虫系统
技术领域
本发明涉及计算机技术领域,具体涉及一种智能反屏蔽网络爬虫系统。
背景技术
网络爬虫是一种“自动化浏览网络”的程序,是一种自动检索工具,它可以自动采集所有其能够访问到的网站页面内容,然后将访问到的内容存储下来,供分析使用。
然后,由于很多网站的商业排他行为,会在网站上设置发爬虫机制,导致用户可以正常访问的页面不能使用爬虫获取。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的智能反屏蔽网络爬虫系统。
依据本发明的一个方面,提供了一种智能反屏蔽网络爬虫系统
本发明的目的可以通过以下技术方案实现:
一种智能反屏蔽网络爬虫系统,包括智能代理模块、用户行为模拟模块、信息爬取模块、信息整理储存模块、信息分析单元、屏蔽规则库、代理信息库、用户帐号库、用户行为规则库;
所述的屏蔽规则库储存网站的屏蔽规则;
所述的代理信息库负责储存IP代理站点的信息,包含用户名、密码、IP地址、协议;
所述的用户帐号库储存用户登录目标网站的用户帐号信息,包含用户名、密码、网址;
所述的用户行为规则库用于储存用户行为规则的关键指标,包含访问频率、单页面滞留时间、定单用户最长滞留时间,该指标为一组阀值,具体值由管理员设定。
进一步地,所述的智能代理模块工作步骤如下:
步骤S201,获取入口url,首次访问网站,根据屏蔽规则库去主动触发屏蔽规则;
步骤S202,根据目标网站的返回值判断目标网站是否有屏蔽机制,返回值枚举存放在屏蔽规则库中,由管理员维护,根据枚举值和返回值比较,判断目标网站不存在屏蔽机制的时候,执行步骤S207,调用信息爬取模块爬取信息,根据枚举值和返回值比较,判断目标网站存在屏蔽机制的时候,执行步骤S203,启用代理;
步骤S203,启用代理;
步骤S204,判断代理是否失效或已到达设定时限,如果为是则执行步骤S205更换代理,此处的代理信息为步骤S209从代理信息库中获取,如果为否,则执行步骤S206调用用户行为模拟模块模拟用户访问目标网站;
步骤205,更换代理;
步骤206,调用用户行为模拟模块模拟用户访问;
步骤S207,调用信息爬取模块爬取目标网站信息。
进一步地,所述的用户行为模拟模块工作步骤如下:
步骤S301,获取用户帐号,此用户帐号为储存在用户帐号库中与目标网站相对应的帐号/密码;
步骤S302,获取用户行为规则,此用户行为规则为储存在用户行为规则库中的用户行为规则,包括但不限于访问频率、单页面滞留时间、定单用户最长滞留时间,该指标为一组阀值,具体值由管理员设定;
步骤S303,设定用户行为参数,将上一步获取的用户行为规则的阀值配置入配置文件中,供后续使用;
步骤S304,访问页面信息,为目标网站的信息,使用步骤S301获取的用户名/密码;
步骤S305,判断用户行为信息是否达到步骤S303中设定的阀值,如果没有达到阀值,继续执行步骤S304访问页面信息;如果达到阀值,回到步骤S301,更换帐号后循环以上步骤。
本发明的有益效果:本发明的智能代理模块通过主动触发方式来智能判断是否启用代理,并且智能代理模块可以实现无人工介入的自动更换代理,并且提供用户行为模拟模块来模拟用户访问网站页面数据,可以实现智能规避网站的反屏蔽措施。从而使用该智能反屏蔽网络爬虫实现网站数据的智能采集。
附图说明
下面结合附图和具体实施例对本发明作进一步详细描述。
图1是本发明的示意图。
图2是本发明的智能代理模块的工作示意图。
图3是本发明的用户行为模拟模块的工作示意图。
图4是本发明的信息爬取模块示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
由图1所示,本发明提供了一种智能反屏蔽网络爬虫系统,该智能反屏蔽网络爬虫系统包括智能代理模块111、用户行为模拟模块112、信息爬取模块113、信息整理储存模块114、信息分析单元120、屏蔽规则库115、代理信息库116、用户帐号库117、用户行为规则库118。
智能代理模块111连接用户行为模拟模块112,用户行为模拟模块112连接信息爬取模块113,信息爬取模块113连接信息整理储存模块114,信息整理储存模块114连接信息分析单元120。
屏蔽规则库115和代理信息库116分别与智能代理模块111连接。
用户帐号库117和用户行为规则库118分别与用户行为模拟模块112连接。
屏蔽规则库115储存网站的屏蔽规则。
代理信息库116负责储存IP代理站点的信息,包含用户名、密码、IP地址、协议。
用户帐号库117储存用户登录目标网站的用户帐号信息,包含用户名、密码、网址。
用户行为规则库118用于储存用户行为规则的关键指标,包含访问频率、单页面滞留时间、定单用户最长滞留时间,该指标为一组阀值,具体值由管理员设定。
图2示出了根据本发明一个实施例的智能代理模块的处理方法的流程图,如图2所示,该方法包括:
步骤S201,获取入口url,首次访问网站,根据屏蔽规则库去主动触发屏蔽规则。此处的屏蔽规则为步骤S208从屏蔽规则库115中取得。
步骤S202,根据目标网站的返回值判断目标网站是否有屏蔽机制。返回值枚举存放在屏蔽规则库115中,由管理员维护。
当根据枚举值和返回值比较,判断目标网站不存在屏蔽机制的时候,执行步骤S207,调用信息爬取模块113爬取信息。
当根据枚举值和返回值比较,判断目标网站存在屏蔽机制的时候,执行步骤S203,启用代理。此处的代理信息为步骤S209从代理信息库116中获取。
步骤S204,判断代理是否失效或已到达设定时限,如果为是则执行步骤S205更换代理,此处的代理信息为步骤S209从代理信息库116中获取。如果为否,则执行步骤S206调用用户行为模拟模块模拟用户访问目标网站。
步骤S207,调用信息爬取模块113爬取目标网站信息。
与现有技术中的网络爬虫不同,本实施例中的网络爬虫由于采用了智能IP代理和用户行为模拟,使目标网站认为该爬虫是正常的用户,所以可以完美绕过目标网站的屏蔽机制,顺利采集网站数据。
图3示出了根据本发明一个实施例的用户行为模拟模块的处理方法的流程图,如图3所示,该方法包括:
步骤S301,获取用户帐号,此用户帐号为储存在用户帐号库117中与目标网站相对应的帐号/密码。
步骤S302,获取用户行为规则,此用户行为规则为储存在用户行为规则库118中的用户行为规则,包括但不限于访问频率、单页面滞留时间、定单用户最长滞留时间,该指标为一组阀值,具体值由管理员设定。
步骤S303,设定用户行为参数,将上一步获取的用户行为规则的阀值配置入配置文件中,供后续使用。
步骤S304,访问页面信息,为目标网站的信息,使用步骤S301获取的用户名/密码。
步骤S305,判断用户行为信息是否达到步骤S303中设定的阀值,如果没有达到阀值,继续执行步骤S304访问页面信息;如果达到阀值,回到步骤S301,更换帐号后循环以上步骤。
图4示出了根据本发明一个实施例的信息爬取模块实现方法的流程图,如图4所示,该方法包括:
步骤S401,模拟用户对网页的访问操作发送网页访问请求。其中,可以通过客户端如浏览器发送网页访问请求。
步骤S402,根据网页访问请求对应的反馈内容获得相应的网页内容。
步骤S403,分析获得的网页内容,获得目标信息。
在本发明的一个实施例中,上述方法进一步包括:智能代理和用户行为模拟所达成的反屏蔽机制效果。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

Claims (3)

1.一种智能反屏蔽网络爬虫系统,其特征在于:包括智能代理模块(111)、用户行为模拟模块(112)、信息爬取模块(113)、信息整理储存模块(114)、信息分析单元(120)、屏蔽规则库(115)、代理信息库(116)、用户帐号库(117)、用户行为规则库(118);
所述的屏蔽规则库(115)储存网站的屏蔽规则;
所述的代理信息库(116)负责储存IP代理站点的信息,包含用户名、密码、IP地址、协议;
所述的用户帐号库(117)储存用户登录目标网站的用户帐号信息,包含用户名、密码、网址;
所述的用户行为规则库(118)用于储存用户行为规则的关键指标,包含访问频率、单页面滞留时间、定单用户最长滞留时间,该指标为一组阀值,具体值由管理员设定。
2.根据权利要求1所述的一种智能反屏蔽网络爬虫系统,其特征在于:所述的智能代理模块工作步骤如下:
步骤S201,获取入口url,首次访问网站,根据屏蔽规则库去主动触发屏蔽规则;
步骤S202,根据目标网站的返回值判断目标网站是否有屏蔽机制,返回值枚举存放在屏蔽规则库(115)中,由管理员维护,根据枚举值和返回值比较,判断目标网站不存在屏蔽机制的时候,执行步骤S207,调用信息爬取模块(113)爬取信息,根据枚举值和返回值比较,判断目标网站存在屏蔽机制的时候,执行步骤S203,启用代理;
步骤S203,启用代理;
步骤S204,判断代理是否失效或已到达设定时限,如果为是则执行步骤S205更换代理,此处的代理信息为步骤S209从代理信息库(116)中获取,如果为否,则执行步骤S206调用用户行为模拟模块(112)模拟用户访问目标网站;
步骤205,更换代理;
步骤206,调用用户行为模拟模块(112)模拟用户访问;
步骤S207,调用信息爬取模块(113)爬取目标网站信息。
3.根据权利要求1所述的一种智能反屏蔽网络爬虫系统,其特征在于:所述的用户行为模拟模块工作步骤如下:
步骤S301,获取用户帐号,此用户帐号为储存在用户帐号库(117)中与目标网站相对应的帐号/密码;
步骤S302,获取用户行为规则,此用户行为规则为储存在用户行为规则库(118)中的用户行为规则,包括但不限于访问频率、单页面滞留时间、定单用户最长滞留时间,该指标为一组阀值,具体值由管理员设定;
步骤S303,设定用户行为参数,将上一步获取的用户行为规则的阀值配置入配置文件中,供后续使用;
步骤S304,访问页面信息,为目标网站的信息,使用步骤S301获取的用户名/密码;
步骤S305,判断用户行为信息是否达到步骤S303中设定的阀值,如果没有达到阀值,继续执行步骤S304访问页面信息;如果达到阀值,回到步骤S301,更换帐号后循环以上步骤。
CN201610546451.4A 2016-07-12 2016-07-12 一种智能反屏蔽网络爬虫系统 Pending CN106210050A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610546451.4A CN106210050A (zh) 2016-07-12 2016-07-12 一种智能反屏蔽网络爬虫系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610546451.4A CN106210050A (zh) 2016-07-12 2016-07-12 一种智能反屏蔽网络爬虫系统

Publications (1)

Publication Number Publication Date
CN106210050A true CN106210050A (zh) 2016-12-07

Family

ID=57477441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610546451.4A Pending CN106210050A (zh) 2016-07-12 2016-07-12 一种智能反屏蔽网络爬虫系统

Country Status (1)

Country Link
CN (1) CN106210050A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107196968A (zh) * 2017-07-12 2017-09-22 深圳市活力天汇科技股份有限公司 一种爬虫识别方法
CN107635026A (zh) * 2017-09-26 2018-01-26 马上消费金融股份有限公司 一种获取ip的方法及装置
CN108243249A (zh) * 2018-01-04 2018-07-03 网宿科技股份有限公司 一种网页广告的防屏蔽方法、内容分发网络及客户端
CN108551452A (zh) * 2018-04-18 2018-09-18 平安科技(深圳)有限公司 网络爬虫方法、终端及存储介质
CN111125489A (zh) * 2019-12-25 2020-05-08 北京锐安科技有限公司 一种数据抓取方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103533097A (zh) * 2013-10-10 2014-01-22 北京京东尚科信息技术有限公司 一种网络爬虫下载解析方法及装置
CN105072089A (zh) * 2015-07-10 2015-11-18 中国科学院信息工程研究所 一种web恶意扫描行为异常检测方法与系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103533097A (zh) * 2013-10-10 2014-01-22 北京京东尚科信息技术有限公司 一种网络爬虫下载解析方法及装置
CN105072089A (zh) * 2015-07-10 2015-11-18 中国科学院信息工程研究所 一种web恶意扫描行为异常检测方法与系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
颜琳: "网络信息采集与处理系统设计与实现", 《中国优秀硕士全文论文全文数据库》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107196968A (zh) * 2017-07-12 2017-09-22 深圳市活力天汇科技股份有限公司 一种爬虫识别方法
CN107196968B (zh) * 2017-07-12 2020-10-20 深圳市活力天汇科技股份有限公司 一种爬虫识别方法
CN107635026A (zh) * 2017-09-26 2018-01-26 马上消费金融股份有限公司 一种获取ip的方法及装置
CN107635026B (zh) * 2017-09-26 2019-01-22 马上消费金融股份有限公司 一种获取ip的方法及装置
CN108243249A (zh) * 2018-01-04 2018-07-03 网宿科技股份有限公司 一种网页广告的防屏蔽方法、内容分发网络及客户端
CN108551452A (zh) * 2018-04-18 2018-09-18 平安科技(深圳)有限公司 网络爬虫方法、终端及存储介质
CN111125489A (zh) * 2019-12-25 2020-05-08 北京锐安科技有限公司 一种数据抓取方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN106210050A (zh) 一种智能反屏蔽网络爬虫系统
US20160241576A1 (en) Detection of anomalous network activity
US10764290B2 (en) Governed access to RPA bots
CN104917779B (zh) 一种基于云的cc攻击的防护方法、装置及系统
CN103605924B (zh) 一种防止恶意程序攻击网络支付页面的方法及装置
CN103493061A (zh) 用于应对恶意软件的方法和装置
US10819731B2 (en) Exception remediation logic rolling platform
US11468185B2 (en) Dynamically controlling access to linked content in electronic communications
CN107276986B (zh) 一种通过机器学习保护网站的方法、装置和系统
CN109634756A (zh) 页面事件处理方法、装置、计算机设备及存储介质
CN109413045A (zh) 一种访问控制系统及方法
CN105072165B (zh) 一种基于混合模式移动应用的数据本地存储控制方法及装置
CN107800689A (zh) 一种网站可用性保障处理方法及装置
CN107239563A (zh) 舆情信息动态监控方法
CN109635222A (zh) 网页权限管控方法、装置、设备及计算机可读存储介质
CN114944961A (zh) 网络安全防护方法、装置、系统和电子设备
Othman et al. Information system audit for mobile device security assessment
CN105184161B (zh) 一种针对混合模式移动应用的检测方法及装置
CN107908956A (zh) 一种资源访问请求的监控方法、装置及可读存储介质
CN105978908B (zh) 一种非实时信息网站安全保护方法和装置
CN107294903A (zh) 一种网络地址访问方法及装置
CN107870950A (zh) 一种对恶意网站进行过滤的方法及装置
US20140359780A1 (en) Anti-cyber attacks control vectors
CN107743129A (zh) 动态分配Cookie过期时间的方法、终端及计算机可读存储介质
Li Optimal cloud assistance policy of end-edge-cloud ecosystem for mitigating edge distributed denial of service attacks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20161207