CN111865977A - 一种信息处理方法及系统 - Google Patents

一种信息处理方法及系统 Download PDF

Info

Publication number
CN111865977A
CN111865977A CN202010697095.2A CN202010697095A CN111865977A CN 111865977 A CN111865977 A CN 111865977A CN 202010697095 A CN202010697095 A CN 202010697095A CN 111865977 A CN111865977 A CN 111865977A
Authority
CN
China
Prior art keywords
information
target
website
user
agent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010697095.2A
Other languages
English (en)
Inventor
王忠儒
余伟强
周晓雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Digapis Technology Co ltd
Original Assignee
Beijing Digapis Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Digapis Technology Co ltd filed Critical Beijing Digapis Technology Co ltd
Priority to CN202010697095.2A priority Critical patent/CN111865977A/zh
Publication of CN111865977A publication Critical patent/CN111865977A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0281Proxies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/083Network architectures or network communication protocols for network security for authentication of entities using passwords
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0876Network architectures or network communication protocols for network security for authentication of entities based on the identity of the terminal or configuration, e.g. MAC address, hardware or software configuration or device fingerprint
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/145Countermeasures against malicious traffic the attack involving the propagation of malware through the network, e.g. viruses, trojans or worms

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Power Engineering (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种信息处理方法及系统,基于针对网站的用户请求,在目标信息池中获取目标信息;根据目标信息生成与用户请求相匹配的请求信息,使得基于请求信息对网站进行信息请求,响应于对网站进行信息请求过程中获得验证码,依据所述验证码类型,输入与所述验证码类型对应的验证信息,实现通过所述网站获得与所述用户请求相匹配的信息。目标信息池包括目标浏览器的用户代理信息、目标IP代理信息、和目标cookie信息。能够通过目标信息池的目标信息对网站进行请求,由于该目标信息为网站的允许请求信息,避免网站的反爬虫系统对用户阻拦,使得用户能够快速有效获得与之权限对应的信息,提升了信息获取效率。

Description

一种信息处理方法及系统
技术领域
本发明涉及计算机技术领域,特别是涉及一种信息处理方法及系统。
背景技术
网页爬虫不仅会盗取网站的核心内容,侵犯用户隐私和知识产权,降低被爬网站的竞争力;同时,它还会产生许多虚假用户,造成的大量IP访问网站侵占带宽资源的现象,增加网站的运营成本。为了减少网站的损失,一些网站便开始采取反爬虫技术。
但是网站采用反爬虫技术后,会使得正常用户在某一段时间内若访问较为频繁也会被认定为爬虫现象,使得该用户无法及时获得大量与其权限对应的正常信息。从而使得获取网站信息的效率较低。
发明内容
针对于上述问题,本发明提供一种信息处理方法及系统,实现了提升网站信息获取效率。
为了实现上述目的,本发明提供了如下技术方案:
一种信息处理方法,所述方法包括:
基于针对网站的用户请求,在目标信息池中获取目标信息,所述目标信息池包括目标浏览器的用户代理信息、目标IP代理信息和目标cookie信息;
根据所述目标信息生成与所述用户请求相匹配的请求信息,使得基于所述请求信息对所述网站进行信息请求;
响应于对所述网站进行信息请求过程中获得验证码,依据所述验证码类型,输入与所述验证码类型对应的验证信息,实现通过所述网站获得与所述用户请求相匹配的信息。
可选地,所述基于针对网站的用户请求,在目标信息池中获取目标信息,包括:
响应于用户将用户请求发送至网站,获取所述网站针对所述用户请求的反馈信息;
若所述反馈信息满足访问失败且所述用户满足所述网站的访问权限的条件时,在目标信息池中获取与所述用户请求相匹配的目标信息。
可选地,所述方法还包括:
对所述用户请求进行解析,获得与所述用户请求对应的目标网址;
利用所述目标信息池中的信息对所述目标网址进行信息爬取,得到初始信息;
将所述初始信息在所述用户对应的客户端进行显示,使得所述用户对所述初始信息进行选定,得到选定信息;
基于所述选定信息确定与所述选定信息对应的信息路径匹配规则;
利用所述目标信息池中的信息对所述信息路径匹配规则对应的信息进行爬取,得到目标信息。
可选地,所述方法包括:创建目标信息池,包括:
基于获取到的浏览器的用户代理信息进行处理,得到目标浏览器的用户代理信息;
获取各个公开IP代理网站的IP代理信息,用所述IP代理信息访问目标网址进行检测,检测通过的IP代理信息确定为目标IP代理信息;
获取每个账号目标网址的用户名、密码和对应的cookie信息,并基于所述每个账号目标网址的用户名、密码和对应的cookie信息生成目标cookie信息;
将所述目标浏览器的用户代理信息、目标IP代理信息和目标cookie信息存储至目标信息池。
可选地,所述基于获取到的浏览器的用户代理信息进行处理,得到目标浏览器的用户代理信息,包括:
对获取到的浏览器的用户代理信息进行去重处理,得到目标浏览器的用户代理信息;
所述获取各个公开IP代理网站的IP代理信息,用所述IP代理信息访问目标网址进行检测,检测通过的IP代理信息确定为目标IP代理信息,包括:
获取各个网站的IP代理信息;
将所述IP代理信息根据免费公开代理和付费代理分开处理,得到各个公开IP代理网站的IP代理信息;
对所述各个公开IP代理网站的IP代理信息访问目标网站进行检测,得到满足检测条件的目标IP代理信息;
所述获取每个账号目标网址的用户名、密码和对应的cookie信息,并基于所述每个账号目标网址的用户名、密码和对应的cookie信息生成目标cookie信息,包括:
获取每个账号目标网址的用户名、密码和对应的cookie信息,并根据所述每个账号目标网址的用户名、密码和对应的cookie信息模拟生成初始cookie信息;
对所述初始cookie信息进行检测,得到目标cookie信息。
可选地,所述验证码类型包括图像验证码、滑动验证码、点触验证码和宫格验证码中的一种,所述依据所述验证码类型,输入与所述验证码类型对应的验证信息,包括:
依据所述验证码类型调用与所述验证码类型相匹配的调用接口;
根据所述调用接口获得待输出验证信息;
将所述待输出验证信息输入至验证信息输入框,使得所述网站获取所述待验证信息,对所述待验证信息进行验证,若验证通过允许用户对所述网站进行信息访问。
一种信息处理系统,所述系统包括:
获取单元,用于基于针对网站的用户请求,在目标信息池中获取目标信息,所述目标信息池包括目标浏览器的用户代理信息、目标IP代理信息和目标cookie信息;
生成单元,用于根据所述目标信息生成与所述用户请求相匹配的请求信息,使得基于所述请求信息对所述网站进行信息请求;
输入单元,用于响应于对所述网站进行信息请求过程中获得验证码,依据所述验证码类型,输入与所述验证码类型对应的验证信息,实现通过所述网站获得与所述用户请求相匹配的信息。
可选地,所述获取单元包括:
第一获取子单元,用于响应于用户将用户请求发送至网站,获取所述网站针对所述用户请求的反馈信息;
第二获取子单元,用于若所述反馈信息满足访问失败且所述用户满足所述网站的访问权限的条件时,在目标信息池中获取与所述用户请求相匹配的目标信息。
可选地,所述系统还包括:
解析单元,用于对所述用户请求进行解析,获得与所述用户请求对应的目标网址;
第一爬取单元,用于利用所述目标信息池中的信息对所述目标网址进行信息爬取,得到初始信息;
显示单元,用于将所述初始信息在所述用户对应的客户端进行显示,使得所述用户对所述初始信息进行选定,得到选定信息;
确定单元,用于基于所述选定信息确定与所述选定信息对应的信息路径匹配规则;
第二爬取单元,用于利用所述目标信息池中的信息对所述信息路径匹配规则对应的信息进行爬取,得到目标信息。
可选地,所述系统包括:创建单元,用于创建目标信息池,所述创建单元包括:
第一处理子单元,用于基于获取到的浏览器的用户代理信息进行处理,得到目标浏览器的用户代理信息;
第一生成子单元,用于获取各个公开IP代理网站的IP代理信息,用所述IP代理信息访问目标网址进行检测,检测通过的IP代理信息确定为目标IP代理信息;
第二生成子单元,用于获取每个账号目标网址的用户名、密码和对应的cookie信息,并基于所述每个账号目标网址的用户名、密码和对应的cookie信息生成目标cookie信息;
存储子单元,用于将所述目标浏览器的用户代理信息、目标IP代理信息和目标cookie信息存储至目标信息池。
相较于现有技术,本发明提供了一种信息处理方法及系统,基于针对网站的用户请求,在目标信息池中获取目标信息;根据目标信息生成与用户请求相匹配的请求信息,使得基于请求信息对网站进行信息请求,响应于对网站进行信息请求过程中获得验证码,依据所述验证码类型,输入与所述验证码类型对应的验证信息,实现通过所述网站获得与所述用户请求相匹配的信息。目标信息池包括目标浏览器的用户代理信息、目标IP代理信息和目标cookie信息。能够通过目标信息池的目标信息对网站进行请求,由于该目标信息为网站的允许请求信息,避免网站的反爬虫系统对用户阻拦,使得用户能够快速有效获得与之权限对应的信息,提升了信息获取效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种信息处理方法的流程示意图;
图2为本发明实施例提供的一种信息处理系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
在本发明实施例中提供了一种信息处理方法,参见图1,该方法可以包括以下步骤:
S101、基于网站的用户请求,在目标信息池中获取目标信息。
S102、根据所述目标信息生成与所述用户请求相匹配的请求信息,使得基于所述请求信息对所述网站进行信息请求。
为了获取网站的信息,用户会将用户请求发送至网站,通常网站会对用户请求进行验证,验证用户请求信息的合法性、权限性,若验证通过可以直接对用户请求进行处理,并生成与用户请求对应的展示信息,供用户使用。但是如果验证不通过,网站会反馈访问失败信息至用户,然后用户可以生成用户请求,即请求访问网站的信息,然后基于目标信息池中的信息对该请求进行响应。对应的,响应于用户将用户请求发送至网站,获取所述网站针对所述用户请求的反馈信息;若所述反馈信息满足访问失败且所述用户满足所述网站的访问权限的条件时,在目标信息池中获取与所述用户请求相匹配的目标信息。
例如,如果用户访问过于频繁会使得网站认为该用户请求为网站非法爬虫信息,同时会通过反爬虫模块来拒绝用户请求。具体的判定是否为非法爬虫可以根据以下条件进行:是否遵守Robots协议,是否超出访问权限范围,获取网页信息的速度是否妨碍网站的正常运行,用户是否从中获利。因此,当获取针对网站的用户请求后,网站需要对该用户请求进行权限和合法性判定,主要是判断用户请求是否为正常的合法请求,排除非法用户的网络爬虫的现象。为了能够满足用户能够获取与其权限对应的信息,需要根据用户访问的网站对用户的访问信息的封装和处理,使得获得的目标信息能够访问到对应的网站。对应的,对网站信息的爬虫分为非法爬虫和正常爬虫,非法爬虫是指非法用户恶意获取网站信息,如获取网站用户的隐私信息等,正常爬虫是指获取网站大量信息的过程,如获取相关技术公开的关联资料等。在本发明实施例中的网络爬虫指的是正常爬虫的过程。
在本发明实施例中是通过在目标信息池获取目标信息,使得通过所述目标信息对所述网站进行信息请求,所述目标信息池包括浏览器的用户代理信息、IP代理信息、cookie信息。
对应的,在本发明实施例中该包括创建目标信息池,具体包括:
基于获取到的浏览器的用户代理信息进行处理,得到目标浏览器的用户代理信息;
获取各个公开IP代理网站的IP代理信息,用所述IP代理信息访问目标网址进行检测,检测通过的IP代理信息确定为目标IP代理信息,;
获取每个账号目标网址的用户名、密码和对应的cookie信息,并基于所述每个账号目标网址的用户名、密码和对应的cookie信息生成目标cookie信息;
将所述目标浏览器的用户代理信息、目标IP代理信息和目标cookie信息存储至目标信息池。
其中,所述基于获取到的浏览器的用户代理信息进行处理,得到目标浏览器的用户代理信息,包括:
对获取到的浏览器的用户代理信息进行去重处理,得到目标浏览器的用户代理信息;
所述获取各个公开IP代理网站的IP代理信息,用所述IP代理信息访问目标网址进行检测,检测通过的IP代理信息确定为目标IP代理信息,包括:
获取各个网站的IP代理信息;
将所述IP代理信息根据免费公开代理和付费代理分开处理,得到各个公开IP代理网站的IP代理信息;
对所述各个公开IP代理网站的IP代理信息访问目标网站进行检测,得到满足检测条件的目标IP代理信息;
所述获取每个账号目标网址的用户名、密码和对应的cookie信息,并基于所述每个账号目标网址的用户名、密码和对应的cookie信息生成目标cookie信息,包括:
获取每个账号目标网址的用户名、密码和对应的cookie信息,并根据所述每个账号目标网址的用户名、密码和对应的cookie信息模拟生成初始cookie信息;
对所述初始cookie信息进行检测,得到目标cookie信息。
其中,目标信息池包括用户代理信息,所述方法包括:对获取到的用户代理信息进行去重处理,得到目标用户代理信息;将目标用户代理信息存储至目标信息池。其中,浏览器的用户代理信息(User-Agent)使得服务器(即目标网站)能够识别访问用户使用的操作系统及版本、CPU类型、浏览器及版本、浏览器语言、浏览器插件等。在本发明实施例中目标网站能够获取的大部分用户浏览器的信息,使用User-Agent主要意图为让目标网站把爬虫的访问当作用户使用浏览器的正常访问。具体的,设置User-Agent池用于存储用户代理信息,因为仅依据User-Agent的访问频率防爬误伤率较高,因此大部分网站对User-Agent的限制要求并不是很高,只需要随机切换即可。该发明的User-Agent池可以直接网页、爬虫代码等中人工获取,也可以提供接口供用户增加,清洗重复的User-Agent后,供所有网站及用户使用,失效时直接删除即可。
在目标信息池的IP代理池包括存储、获取、检测三个模块。存储模块分为总存储模块和各个网站的存储分模块。总存储模块保证数据库总表中的代理不重复,并有分值字段标识代理IP可用度、状态字段标识代理IP是否被使用、来源字段注明IP来自于哪个免费公开网站或用户名和时间字段标注代理IP公布的时间等。每个目标网站都在数据库中有相应的表,总表的代理IP逐一测试此网站,测试合格便存储在它的分表中。数据库动态实时更新每个可用代理IP使用的状态,同时,定时清除分值字段小于阈值的不可用代理。
获取模块定时在各大代理网站抓取高匿代理,检测合格后以IP和端口的形式放入存储模块。抓取时将免费公开代理和付费代理分开处理,若用户要使用付费代理,需要用户认证登录。获取模块首次获取公开免费代理网站三天内的代理,之后在总表可用代理小于一定的阈值后,爬取上次爬取时间至爬取时间的最新代理。
检测模块针对存储模块中的不同表使用不同的检测链接。如,总表使用搜索引擎的首页进行检测,因为搜索引擎的访问量较大,对IP频次的限制不会特别高。各网站的分表使用其对应网站进行检测。需要强调的是,每个代理都有一个基础分值,测试失败一次减一,成功一次加一。
对应的,目标信息池包括目标cookie信息。cookie是网站为了辨别用户身份而储存在用户本地终端上的数据。cookie是一段不超过4KB的小型文本数据,由一个名称(Name)、一个值(Value)和其它几个用于控制Cookie有效期、安全性、使用范围的可选属性组成。cookie类型为小型文本文件,一般使用英文表示。
即目标信息池包括cookie池。因部分网站登录后才可显示全部内容,以及登录后被反爬的概率变低,而Cookie中保存的信息可以减少登录的次数,因此搭建Cookies池。Cookies池和IP代理池分为同样的四个小模块。不同的是,Cookies池的存储模块保存每个账号目标网址的用户名、密码和对应的Cookie,没有总表,只有各个网站的分表。有些网站不需登录,可只保存Cookie。生成模块获取目标网址的账号信息并模拟登陆生成Cookie。若登陆成功,存储Cookie信息;若用户名或密码错误,删除这些信息;登陆失败重试几次,大于阈值后依旧无效则删除。若Cookie是通过JavaScript脚本生成的,则此处存储响应的Cookie生成脚本。检测模块定时遍历,失效后移除Cookie,并推断各网站的Cookie有效时间。需要说明的是Cookies池的存储模块保存每个账号目标网址的用户名、密码和对应的Cookie,没有总表,只有各个网站的分表。有些网站不需登录,可只保存Cookie。
本发明还包括可以通过接口模块对目标信息池的信息进行获取,该模块提供接口文档。便于对信息进行展示和调用。如User-Agent增加接口;展示接口:用Web API的形式暴露此用户的部分可用User-Agent、代理、Cookie;账号接口:接受用户目标网址及其账号、密码等;调用接口:将针对网站抽取的User-Agent、代理、用户目标网址的账号密码和Cookie整合后,统一返回给用户等;打码接口:输入用户目标网址及验证码所在位置和宽高等,返回破解的验证码字符串;等等。需要强调的是调用接口在抽取IP代理池时,抽取目标网址的免费公开可用代理和该用户的付费可用代理中分值最高的代理,每次调用后有一定范围内的随机休眠时间。若此网站暂无分表,则调用检测模块建立分表;同时,在分表可使用前,优先从总表抽取可用分值高的代理。若某一代理被使用,则在总表中标记锁死,禁止其他用户同时使用。
S103、响应于对所述网站进行信息请求过程中获得验证码,依据所述验证码类型,输入与所述验证码类型对应的验证信息,实现通过所述网站获得与所述用户请求相匹配的信息。
其中,所述验证码类型包括图像验证码、滑动验证码、点触验证码和宫格验证码中的一种,所述依据所述验证码类型,输入与所述验证码类型对应的验证信息,包括:依据所述验证码类型调用与所述验证码类型相匹配的打码链接信息;根据所述打码链接信息获得待输出验证信息;将所述待输出验证信息输入至验证信息输入框,使得所述网站获取所述待验证信息,对所述待验证信息进行验证,若验证通过允许用户对所述网站进行信息访问。
具体的,可以通过处理器中的打码模块来实现这一功能。即该打码模块覆盖常见验证码的几种形式,不能被破解的验证码可提供打码平台的链接。当请求过程中出现验证码时,便可调用。具体的,以不同的验证码类型进行说明。对应的验证码也可能包括二级验证,获取对应的验证信息的方法相同,此处不进行赘述。
图形验证码一般是4位字母或数字组成的,可先把图片转为灰度、根据阈值二值化等操作,使去除掉线条等干扰的整个图像呈现出明显的黑白视觉效果。再用OCR(光学字符识别)技术进行识别。
滑动验证码将滑块拖动到缺口处即可完成验证。缺口处与图片的差距较大,可用边缘检测算法或原图和有缺口图片像素对比的方法发现缺口的位置,再用滑块模拟人类的拖动轨迹。
点触验证码需要用户根据需求,按顺序点击图片中的文字。文字的识别需要大量的样本,因此可直接采用打码平台,利用其返回的文字在图片中的坐标位置,再进行点击模拟。
宫格验证码的每个宫格之间会有一条指示滑动轨迹连线,需要依次从起始宫格滑动到终止宫格才可完成验证。这种验证码同一轨迹型只会箭头方向不同,可用模板匹配的方法。首先存储此验证码的各种样式,如4宫格共C4 1个模板,易于保存。验证码模板名称标记为拖动顺序,验证码和模板匹配成功后,便可按箭头顺序拖动。
本发明实施例通过目标信息池获得目标信息以及输入验证码信息来模拟正常的网络信息的获取过程,绕过所需大部分目标网址的核心反爬模块,避免被页面反爬过早发现,提高爬取难度。并提供接口协助获取页面的源代码,提高爬虫编写效率。
具体的,IP代理池有针对各个网站的分表,使得某网站不可用的代理也有机会使用在其他网站,提高了可用代理的利用率,避免造成资源的浪费;IP代理可用的基础分值不为0,提高IP被检测后使用的概率,因为大部分免费代理失效很快;并且,付费代理的基础分值远远高出免费代理,符合付费代理可用率较高的情况。基础值和阈值之间有一定的范围,给每个代理一个容错范围,避免因网络繁忙或其他人使用太过频繁丢失可用代理,提高可用代理的获取率。IP代理池每次抽取分值最高、最稳定的代理,而不是随机抽取,提高了用户体验,使得模块实际操作中稳定性更高。
请求模块(即获取目标信息的处理模块)中User-Agent、代理、用户账户密码和Cookie采用一对一对一的方式,在其中一项失效后,再统一更换,努力避免了同一代理不停更换User-Agent之类的情况,使爬虫行为特点不至于特别机械化。并且,大部分反爬的严格措施都是在爬虫被怀疑之后,使用请求模块能大幅度降低爬虫被识别出来的风险。验证码的获取方式为根据其所在位置和宽高获取页面截图,避免用户直接从源码中寻找,方便用户操作。
宫格验证码采取了全图模板匹配的方法,与匹配箭头的方法相比,不仅保存的模板量会大大降低,而且不会轻易出现像素点偏差错误效果大打折扣的效果,提高了验证码破解的正确率。模块作为一个独立的服务运行,所有功能都采用接口的模式,并封装完整,编写的API接口文档,使用户黑盒便可操作,方便开发人员利用。并有Web API的形式展示的部分内容接口,可以不暴露用户的信息,防止模块数据库被爬取,也可不受系统、软件版本、编程语言等的限制,直接使用,提高了其使用覆盖率。各模块异步处理,提高爬虫的爬取效率。
为了能够通过本发明实施例提供的信息处理方法更好地爬取用户需要的网站信息,在本发明实施例中还包括:
对所述用户请求进行解析,获得与所述用户请求对应的目标网址;
利用所述目标信息池中的信息对所述目标网址进行信息爬取,得到初始信息;
将所述初始信息在所述用户对应的客户端进行显示,使得所述用户对所述初始信息进行选定,得到选定信息;
基于所述选定信息确定与所述选定信息对应的信息路径匹配规则;
利用所述目标信息池中的信息对所述信息路径匹配规则对应的信息进行爬取,得到目标信息。
具体的,该过程包括以下几个方面:
首先要确定选定规则,即用户确定爬取网址后,可在匹配资源库中搜索此网址,查看是否有与之对应的爬取匹配规则。匹配资源库中包括样本网址、此网址的爬取匹配规则、爬取结果示例和相应资源的积分。用户可以根据自身积分数目和内容所需,直接下载爬取结果示例,或者直接加载使用匹配规则,或者稍加修订匹配规则后保存使用,都能获取到需要获取的特定内容。
选定内容的过程具体包括:若匹配资源库中不存在相应的匹配规则,用户可以用提供的浏览器输入爬取网址,建立爬取任务名称。接着双击选定想要爬取的特定内容,在弹出的输入框中,输入此内容的标题,点击确定,系统会自动生成对应内容的路径匹配规则。
路径匹配规则生成后,用户点击测试按钮,就可根据系统输出的结果判断爬取内容的完整性。若爬取内容不完整,用户可以删除此匹配规则,或对匹配规则进行修订。用户确定匹配规则正确后执行任务,就会将此页面中同结构信息的特定内容都采集下来。
当爬取网址有多种网页结构时,为了覆盖爬取网址的全部网页结构。可在同一个爬取任务下确定多个内容标题,每个内容标题对应一种相应的网页结构,系统根据用户输入的内容标题进行区分。
选定内容的过程就是建立想要爬取内容和网页对应结构的映射关系,爬虫可根据这个映射关系(即匹配规则)从网页中爬取用户需要的特定内容。多个内容标题间不分先后顺序。而且,系统会自动将用户确定的匹配规则存储到匹配资源库中。若用户主动提交任务规则,给与用户初始积分奖励;后期其他用户在匹配资源库中使用此规则,就给提供的用户一定的积分提成。
若网页内容过于复杂,可以设立内容主题,将相关内容标题归类为一个主题;也可将不同的内容主题设置为多级的格式。若设立了多级内容主题,系统爬取时会按照主题的顺序执行。这在一定程度上,能避免爬取内容的错位或遗漏,也可以方便用户对爬取数据的的存储和管理。
若网页存在翻页的情况,需要用户在提供的浏览器中选定翻页的部分,系统自动生成对应的翻页规则。用户测试并确定翻页规则正确后,确定添加翻页记号,系统就会在爬虫中增加自动翻页的功能。
为了能够提升爬取效果,用户可以在使用的过程中,对匹配资源库中的匹配规则进行评分。系统会根据评分向用户展示可选用的匹配规则,也会通过人工审核的方式下架或修订评分较差的规则。若用户参与规则的人工审核,给与用户一定的积分奖励。
系统爬取完毕后,数据默认保存为Excel表格中,存储在本系统的安装目录下的data目录中。其中,爬取任务名称为默认存储的文件夹名称和文件名,内容标题为Excel表格中的表头。
系统也可以根据用户的选择,将数据保存在相应的格式中(如Excel表格、xml等),存储在在用户选定的目录中。对应的,用户也可以进行一些自定义配置,如用户可调整爬虫的一些配置,如定时触发、网页未响应的超时时长等。
对应的,在本发明实施例中还提供了一种信息处理系统,参见图2,所述系统包括:
获取单元10,用于基于针对网站的用户请求,在目标信息池中获取目标信息,所述目标信息池包括目标浏览器的用户代理信息、目标IP代理信息和目标cookie信息;
生成单元20,用于根据所述目标信息生成与所述用户请求相匹配的请求信息,使得基于所述请求信息对所述网站进行信息请求;
输入单元30,用于响应于对所述网站进行信息请求过程中获得验证码,依据所述验证码类型,输入与所述验证码类型对应的验证信息,实现通过所述网站获得与所述用户请求相匹配的信息。
在上述实施例的基础上,所述获取单元包括:
第一获取子单元,用于响应于用户将用户请求发送至网站,获取所述网站针对所述用户请求的反馈信息;
第二获取子单元,用于若所述反馈信息满足访问失败且所述用户满足所述网站的访问权限的条件时,在目标信息池中获取与所述用户请求相匹配的目标信息。
可选地,所述系统还包括:
解析单元,用于对所述用户请求进行解析,获得与所述用户请求对应的目标网址;
第一爬取单元,用于利用所述目标信息池中的信息对所述目标网址进行信息爬取,得到初始信息;
显示单元,用于将所述初始信息在所述用户对应的客户端进行显示,使得所述用户对所述初始信息进行选定,得到选定信息;
确定单元,用于基于所述选定信息确定与所述选定信息对应的信息路径匹配规则;
第二爬取单元,用于利用所述目标信息池中的信息对所述信息路径匹配规则对应的信息进行爬取,得到目标信息。
在上述实施例的基础上,所述系统包括:创建单元,用于创建目标信息池,所述创建单元包括:
第一处理子单元,用于基于获取到的浏览器的用户代理信息进行处理,得到目标浏览器的用户代理信息;
第一生成子单元,用于获取各个公开IP代理网站的IP代理信息,用所述IP代理信息访问目标网址进行检测,检测通过的IP代理信息确定为目标IP代理信息;
第二生成子单元,用于获取每个账号目标网址的用户名、密码和对应的cookie信息,并基于所述每个账号目标网址的用户名、密码和对应的cookie信息生成目标cookie信息;
存储子单元,用于将所述目标浏览器的用户代理信息、目标IP代理信息和目标cookie信息存储至目标信息池。
在上述实施例的基础上,所述第一处理子单元具体用于:
对获取到的浏览器的用户代理信息进行去重处理,得到目标浏览器的用户代理信息;
所述第一生成子单元具体用于:
获取各个网站的IP代理信息;
将所述IP代理信息根据免费公开代理和付费代理分开处理,得到各个公开IP代理网站的IP代理信息;
对所述各个公开IP代理网站的IP代理信息访问目标网站进行检测,得到满足检测条件的目标IP代理信息;
所述第二生成子单元具体用于:
获取每个账号目标网址的用户名、密码和对应的cookie信息,并根据所述每个账号目标网址的用户名、密码和对应的cookie信息模拟生成初始cookie信息;
对所述初始cookie信息进行检测,得到目标cookie信息。
在上述实施例的基础上,所述验证码类型包括图像验证码、滑动验证码、点触验证码和宫格验证码中的一种,所述输入单元包括:
调用子单元,用于依据所述验证码类型调用与所述验证码类型相匹配的调用接口;
第三获取子单元,用于根据所述调用接口获得待输出验证信息;
输入子单元,用于将所述待输出验证信息输入至验证信息输入框,使得所述网站获取所述待验证信息,对所述待验证信息进行验证,若验证通过允许用户对所述网站进行信息访问。
本发明提供了一种信息处理系统,获取单元基于针对网站的用户请求,在目标信息池中获取目标信息;生成单元根据目标信息生成与用户请求相匹配的请求信息,使得基于请求信息对网站进行信息请求,输入单元响应于对网站进行信息请求过程中获得验证码,依据所述验证码类型,输入与所述验证码类型对应的验证信息,实现通过所述网站获得与所述用户请求相匹配的信息。目标信息池包括目标浏览器的用户代理信息、目标IP代理信息和目标cookie信息。能够通过目标信息池的目标信息对网站进行请求,由于该目标信息为网站的允许请求信息,避免网站的反爬虫系统对用户阻拦,使得用户能够快速有效获得与之权限对应的信息,提升了信息获取效率。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种信息处理方法,其特征在于,所述方法包括:
基于针对网站的用户请求,在目标信息池中获取目标信息,所述目标信息池包括目标浏览器的用户代理信息、目标IP代理信息和目标cookie信息;
根据所述目标信息生成与所述用户请求相匹配的请求信息,使得基于所述请求信息对所述网站进行信息请求;
响应于对所述网站进行信息请求过程中获得验证码,依据所述验证码类型,输入与所述验证码类型对应的验证信息,实现通过所述网站获得与所述用户请求相匹配的信息。
2.根据权利要求1所述的方法,其特征在于,所述基于针对网站的用户请求,在目标信息池中获取目标信息,包括:
响应于用户将用户请求发送至网站,获取所述网站针对所述用户请求的反馈信息;
若所述反馈信息满足访问失败且所述用户满足所述网站的访问权限的条件时,在目标信息池中获取与所述用户请求相匹配的目标信息。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述用户请求进行解析,获得与所述用户请求对应的目标网址;
利用所述目标信息池中的信息对所述目标网址进行信息爬取,得到初始信息;
将所述初始信息在所述用户对应的客户端进行显示,使得所述用户对所述初始信息进行选定,得到选定信息;
基于所述选定信息确定与所述选定信息对应的信息路径匹配规则;
利用所述目标信息池中的信息对所述信息路径匹配规则对应的信息进行爬取,得到目标信息。
4.根据权利要求1所述的方法,其特征在于,所述方法包括:创建目标信息池,包括:
基于获取到的浏览器的用户代理信息进行处理,得到目标浏览器的用户代理信息;
获取各个公开IP代理网站的IP代理信息,用所述IP代理信息访问目标网址进行检测,检测通过的IP代理信息确定为目标IP代理信息;
获取每个账号目标网址的用户名、密码和对应的cookie信息,并基于所述每个账号目标网址的用户名、密码和对应的cookie信息生成目标cookie信息;
将所述目标浏览器的用户代理信息、目标IP代理信息和目标cookie信息存储至目标信息池。
5.根据权利要求4所述的方法,其特征在于,所述基于获取到的浏览器的用户代理信息进行处理,得到目标浏览器的用户代理信息,包括:
对获取到的浏览器的用户代理信息进行去重处理,得到目标浏览器的用户代理信息;
所述获取各个公开IP代理网站的IP代理信息,用所述IP代理信息访问目标网址进行检测,检测通过的IP代理信息确定为目标IP代理信息,包括:
获取各个网站的IP代理信息;
将所述IP代理信息根据免费公开代理和付费代理分开处理,得到各个公开IP代理网站的IP代理信息;
对所述各个公开IP代理网站的IP代理信息访问目标网站进行检测,得到满足检测条件的目标IP代理信息;
所述获取每个账号目标网址的用户名、密码和对应的cookie信息,并基于所述每个账号目标网址的用户名、密码和对应的cookie信息生成目标cookie信息,包括:
获取每个账号目标网址的用户名、密码和对应的cookie信息,并根据所述每个账号目标网址的用户名、密码和对应的cookie信息模拟生成初始cookie信息;
对所述初始cookie信息进行检测,得到目标cookie信息。
6.根据权利要求1所述的方法,其特征在于,所述验证码类型包括图像验证码、滑动验证码、点触验证码和宫格验证码中的一种,所述依据所述验证码类型,输入与所述验证码类型对应的验证信息,包括:
依据所述验证码类型调用与所述验证码类型相匹配的调用接口;
根据所述调用接口获得待输出验证信息;
将所述待输出验证信息输入至验证信息输入框,使得所述网站获取所述待验证信息,对所述待验证信息进行验证,若验证通过允许用户对所述网站进行信息访问。
7.一种信息处理系统,其特征在于,所述系统包括:
获取单元,用于基于针对网站的用户请求,在目标信息池中获取目标信息,所述目标信息池包括目标浏览器的用户代理信息、目标IP代理信息和目标cookie信息;
生成单元,用于根据所述目标信息生成与所述用户请求相匹配的请求信息,使得基于所述请求信息对所述网站进行信息请求;
输入单元,用于响应于对所述网站进行信息请求过程中获得验证码,依据所述验证码类型,输入与所述验证码类型对应的验证信息,实现通过所述网站获得与所述用户请求相匹配的信息。
8.根据权利要求7所述的系统,其特征在于,所述获取单元包括:
第一获取子单元,用于响应于用户将用户请求发送至网站,获取所述网站针对所述用户请求的反馈信息;
第二获取子单元,用于若所述反馈信息满足访问失败且所述用户满足所述网站的访问权限的条件时,在目标信息池中获取与所述用户请求相匹配的目标信息。
9.根据权利要求7所述的系统,其特征在于,所述系统还包括:
解析单元,用于对所述用户请求进行解析,获得与所述用户请求对应的目标网址;
第一爬取单元,用于利用所述目标信息池中的信息对所述目标网址进行信息爬取,得到初始信息;
显示单元,用于将所述初始信息在所述用户对应的客户端进行显示,使得所述用户对所述初始信息进行选定,得到选定信息;
确定单元,用于基于所述选定信息确定与所述选定信息对应的信息路径匹配规则;
第二爬取单元,用于利用所述目标信息池中的信息对所述信息路径匹配规则对应的信息进行爬取,得到目标信息。
10.根据权利要求7所述的系统,其特征在于,所述系统包括:创建单元,用于创建目标信息池,所述创建单元包括:
第一处理子单元,用于基于获取到的浏览器的用户代理信息进行处理,得到目标浏览器的用户代理信息;
第一生成子单元,用于获取各个公开IP代理网站的IP代理信息,用所述IP代理信息访问目标网址进行检测,检测通过的IP代理信息确定为目标IP代理信息;
第二生成子单元,用于获取每个账号目标网址的用户名、密码和对应的cookie信息,并基于所述每个账号目标网址的用户名、密码和对应的cookie信息生成目标cookie信息;
存储子单元,用于将所述目标浏览器的用户代理信息、目标IP代理信息和目标cookie信息存储至目标信息池。
CN202010697095.2A 2020-07-20 2020-07-20 一种信息处理方法及系统 Pending CN111865977A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010697095.2A CN111865977A (zh) 2020-07-20 2020-07-20 一种信息处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010697095.2A CN111865977A (zh) 2020-07-20 2020-07-20 一种信息处理方法及系统

Publications (1)

Publication Number Publication Date
CN111865977A true CN111865977A (zh) 2020-10-30

Family

ID=73000979

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010697095.2A Pending CN111865977A (zh) 2020-07-20 2020-07-20 一种信息处理方法及系统

Country Status (1)

Country Link
CN (1) CN111865977A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806713A (zh) * 2021-09-01 2021-12-17 浪潮卓数大数据产业发展有限公司 一种通过接码平台和selenium突破点选验证码的方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10044729B1 (en) * 2015-12-01 2018-08-07 Microsoft Technology Licensing, Llc Analyzing requests to an online service
CN109660532A (zh) * 2018-12-14 2019-04-19 华南农业大学 一种分布式网络数据采集方法及其采集系统
CN109729044A (zh) * 2017-10-30 2019-05-07 北京宸瑞科技股份有限公司 一种通用的互联网数据采集反反爬系统及方法
CN110555146A (zh) * 2018-03-29 2019-12-10 中国科学院信息工程研究所 一种网络爬虫伪装数据的生成方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10044729B1 (en) * 2015-12-01 2018-08-07 Microsoft Technology Licensing, Llc Analyzing requests to an online service
CN109729044A (zh) * 2017-10-30 2019-05-07 北京宸瑞科技股份有限公司 一种通用的互联网数据采集反反爬系统及方法
CN110555146A (zh) * 2018-03-29 2019-12-10 中国科学院信息工程研究所 一种网络爬虫伪装数据的生成方法及系统
CN109660532A (zh) * 2018-12-14 2019-04-19 华南农业大学 一种分布式网络数据采集方法及其采集系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806713A (zh) * 2021-09-01 2021-12-17 浪潮卓数大数据产业发展有限公司 一种通过接码平台和selenium突破点选验证码的方法及系统

Similar Documents

Publication Publication Date Title
CN103888490B (zh) 一种全自动的web客户端人机识别的方法
CN107918733B (zh) 检测网页的恶意元素的系统和方法
CN104766014B (zh) 用于检测恶意网址的方法和系统
US20180219907A1 (en) Method and apparatus for detecting website security
US9614862B2 (en) System and method for webpage analysis
CN109768992B (zh) 网页恶意扫描处理方法及装置、终端设备、可读存储介质
US7860971B2 (en) Anti-spam tool for browser
CN111552854A (zh) 一种网页数据抓取方法、装置、存储介质和设备
CN101971591A (zh) 分析网址的系统及方法
JP2007249657A (ja) アクセス制限プログラム、アクセス制限方法およびプロキシサーバ装置
CN111404937B (zh) 一种服务器漏洞的检测方法和装置
US20170017695A1 (en) Question and answer information providing system, information processing device, and non-transitory computer-readable medium
CN108667770A (zh) 一种网站的漏洞测试方法、服务器及系统
US20200034393A1 (en) Synchronizing http requests with respective html context
CN103312692B (zh) 链接地址安全性检测方法及装置
CN113032655A (zh) 一种暗网电子数据提取固定方法
CN110555146A (zh) 一种网络爬虫伪装数据的生成方法及系统
CN108399333A (zh) 用于执行网页的防病毒扫描的系统和方法
JP2018041442A (ja) Webページの異常要素を検出するためのシステム及び方法
CN114003794A (zh) 资产收集方法、装置、电子设备和介质
CN110581841B (zh) 一种后端反爬虫方法
US20210092144A1 (en) Http log integration to web application testing
CN111865977A (zh) 一种信息处理方法及系统
CN110719344B (zh) 域名获取方法、装置、电子设备及存储介质
CN106534210A (zh) 一种登录的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201030

RJ01 Rejection of invention patent application after publication