CN110990799A - 一种反爬虫的数据处理方法、装置、系统及存储介质 - Google Patents

一种反爬虫的数据处理方法、装置、系统及存储介质 Download PDF

Info

Publication number
CN110990799A
CN110990799A CN201811138544.9A CN201811138544A CN110990799A CN 110990799 A CN110990799 A CN 110990799A CN 201811138544 A CN201811138544 A CN 201811138544A CN 110990799 A CN110990799 A CN 110990799A
Authority
CN
China
Prior art keywords
character
replaced
characters
display
crawler
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811138544.9A
Other languages
English (en)
Inventor
李可欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201811138544.9A priority Critical patent/CN110990799A/zh
Publication of CN110990799A publication Critical patent/CN110990799A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
    • G06F21/12Protecting executable software
    • G06F21/14Protecting executable software against software analysis or reverse engineering, e.g. by obfuscation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/51Source to source

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Technology Law (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

本发明提供了一种反爬虫的数据处理方法、装置、系统以及存储介质,首先获取待替换展示字符及所述待替换展示字符对应的源代码;基于预先配置的常用字符与字符编码的对应关系,确定所述待替换展示字符对应的目标字符编码;将所述待替换展示字符对应的源代码替换为所述目标字符编码。这样,当爬虫对源代码进行爬取时,爬取到的是经过替换后的目标字符编码,而爬虫方并不知道预先配置的常用字符与字符编码的对应关系,因此,基于当前爬取的目标字符编码,不能解析出真实的展示字符的内容,实现了反爬。并且本反爬方法既能抑制爬虫获取网站的真实数据,又不降低非爬虫用户的操作感。

Description

一种反爬虫的数据处理方法、装置、系统及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种反爬虫的数据处理方法、装置、系统及存储介质。
背景技术
网络爬虫可以将访问过的页面进行保存,并对网络索引进行编写,实现获取网站内容以及网站索引的目的。然而,网络爬虫访问网站的过程会消耗该网站的系统资源,如,网站连接数、网络带宽资源以及占用后台服务器的负载等。
除此,随着互联网的快速发展,网络信息安全问题日益凸显。出于保护网站数据安全的目的,通常会对网站设置反爬虫机制,来抑制爬虫获取其网站数据。
常用的反爬虫机制是通过设置IP访问的频率来对爬虫进行限制,例如,当某一IP的访问频率超过设定的频率,网页进行弹框验证,当验证通过后,该IP可以继续访问网站,当验证不通过后,在预设时间段内,禁止该IP继续访问网站。而设定IP访问频率的方式会降低访问频率较高的非爬虫用户的操作感。
因此如何提供一种反爬虫的数据处理方法,既能抑制爬虫获取网站的数据,又不降低非爬虫用户的操作感,成为本领域技术人员亟待解决的一大技术问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的技术方案:
一种反爬虫的数据处理方法,包括:
获取待替换展示字符及所述待替换展示字符对应的源代码;
基于预先配置的常用字符与字符编码的对应关系,确定所述待替换展示字符对应的目标字符编码;
将所述待替换展示字符对应的源代码替换为所述目标字符编码。
可选的,所述获取待替换展示字符,包括:
获取反爬文件中的展示字符;
对比所述展示字符以及所述常用字符,并将所述展示字符中与所述常用字符相同的字符确定为所述待替换展示字符。
可选的,在获取待替换展示字符之前,所述方法还包括:
配置常用字符与字符编码的对应关系;和/或,
定义字符编码对应的字体样式。
可选的,将所述待替换展示字符对应的源代码替换为所述目标字符编码,包括:
根据所述字符编码对应的字体样式,确定所述目标字符编码对应的目标字符样式;
将所述待替换展示字符对应的源代码替换为具有目标字符样式的目标字符编码。
可选的,所述方法还包括:
按照预设时间间隔,更新所述常用字符与所述字符编码的对应关系,以使相同的常用字符对应不同的字符编码;或者,
按照预设时间间隔,更换所述常用字符,并重新配置所述常用字符与所述字符编码的对应关系。
一种反爬虫的数据处理装置,包括:
第一获取模块,用于获取待替换展示字符及所述待替换展示字符对应的源代码;
第一确定模块,用于基于预先配置的常用字符与字符编码的对应关系,确定所述待替换展示字符对应的目标字符编码;
替换模块,用于将所述待替换展示字符对应的源代码替换为所述目标字符编码。
可选的,还包括:
配置模块,用于配置常用字符与字符编码的对应关系;和/或,定义字符编码对应的字体样式。
可选的,还包括:
定时模块,用于按照预设时间间隔,更新所述常用字符与所述字符编码的对应关系,以使相同的常用字符对应不同的字符编码;或者,
按照预设时间间隔,更换所述常用字符,并重新配置所述常用字符与所述字符编码的对应关系。
一种反爬虫的数据处理系统,包括:
存储器,用于存储程序;
处理器,用于执行所述程序,所述程序运行时执行任意一项上述的反爬虫的数据处理方法。
一种存储介质,存储有程序,所述程序被处理器执行时实现任意一项上述的反爬虫的数据处理方法。
借由上述技术方案,本发明提供了一种反爬虫的数据处理方法,首先获取待替换展示字符及所述待替换展示字符对应的源代码。然后,基于预先配置的常用字符与字符编码的对应关系,确定所述待替换展示字符对应的目标字符编码。最后,将所述待替换展示字符对应的源代码替换为所述目标字符编码。这样,当爬虫对源代码进行爬取时,爬取到的是经过替换后的目标字符编码,而爬虫方并不知道预先配置的常用字符与字符编码的对应关系,因此,基于当前爬取的目标字符编码,不能解析出真实的展示字符的内容,实现了反爬。并且本反爬方法既能抑制爬虫获取网站的真实数据,又不降低非爬虫用户的操作感。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本实施例提供的一种反爬虫的数据处理方法的流程示意图;
图2示出了本实施例提供的一种反爬虫的数据处理方法的又一流程示意图;
图3示出了本实施例提供的一种反爬虫的数据处理方法的又一流程示意图;
图4示出了本实施例提供的一种反爬虫的数据处理方法的又一流程示意图;
图5示出了本实施例提供的一种反爬虫的数据处理方法的又一流程示意图;
图6示出了本实施例提供的一种反爬虫的数据处理装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
通常,网页具有源代码以及展示字符,用户看到的是展示字符,而网页后台记录的是源代码。例如,一个购物网站,用户看到的展示字符为“冰箱”、“洗衣机”以及对应的价格,而该网页在进行编程时,是通过编写源代码,进而使网页能够显示上述展示字符。并且,网页的编程通常按照预设的编写语言,如C++、java等,其源代码与展示字符的对应关系为本领域技术人员公知。因此,当爬虫获取了网页的源代码之后,能够将源代码解析成网页的真实内容,进而盗取网页数据。
正如背景技术所述,常用的反爬虫机制是通过设置IP访问的频率来对爬虫进行限制,例如,当某一IP的访问频率超过设定的频率,网页进行弹框验证,当验证通过后,该IP可以继续访问网站,当验证不通过后,在预设时间段内,禁止该IP继续访问网站。而设定IP访问频率的方式会降低访问频率较高的非爬虫用户的操作感。
基于此,本发明实施例提供了一种反爬虫的数据处理方法,既能抑制爬虫获取网站的数据,又不降低非爬虫用户的操作感。具体的,如表1所示,本实施预先配置常用字符与字符编码的对应关系。其中,常用字符为网页上的展示字符,字符编码为自定义的至少一套字符编码。
示意性的,假设配置的常用字符与字符编码的对应关系如下表1所示:
表1
常用字符 字符编码
A
B
C
D
E
本实施例提供的一种反爬虫的数据处理方法,如图1所示,包括:
S11、获取待替换展示字符及所述待替换展示字符对应的源代码。
其中,待替换展示字符为当前网页的任一数据内容,例如,某一网站,具有多层数据链接以及对应的数据内容(如文章、视频、图片等)。通常,爬虫对目标网站进行爬取,以获取目标网站的网页数据。
而本步骤是首先获取待替换展示字符,然后获取上述待替换展示字符对应的源代码,例如,网页的待替换展示字符为“你们好吗?”,该展示字符对应的源代码为“nimenhaoma”,本步骤就是获取“你们好吗?”以及“nimenhaoma”。
S12、基于预先配置的常用字符与字符编码的对应关系,确定所述待替换展示字符对应的目标字符编码。
本步骤可以是将步骤S11获取的待替换展示字符在表1中查表,找到表1中与待替换展示字符对应的字符编码,例如,在表1中,查询待替换展示字符“你们好吗?”对应的字符编码为“ABCDE”,确定字符编码“ABCDE”为目标字符编码。
还可以是,将常用字符进行预设规则的处理,得到与该常用字符对应的字符编码。假设预设规则为,设定每个常用字符的拼音的首字母为目标字符编码,如,待替换展示字符“你们好吗?”的拼音首字母为“NMHM?”,将该拼音首字母“NMHM?”作为目标字符编码。
S13、将所述待替换展示字符对应的源代码替换为所述目标字符编码。
相应的,将上述待替换展示字符“你们好吗?”对应的源代码“nimenhaoma”替换成目标字符编码“ABCDE”或“NMHM?”。
可见,当前网页中的源代码为部分替换后的字符编码,当爬虫对源代码进行爬取时,爬取到的是经过替换后的目标字符编码,如“ABCDE”或“NMHM?”,而爬虫方并不知道预先配置的常用字符与字符编码的对应关系,因此,基于当前爬取的目标字符编码,不能解析出真实的展示字符的内容,如“你们好吗?”,实现了反爬。并且本反爬方法没有限制访问频率,因此不会降低非爬虫用户的操作感。
在上述实施例的基础上,如图2所示,本实施例还提供了一种获取待替换展示字符的具体实现步骤,如下:
S21、获取反爬文件中的展示字符;
S22、对比所述展示字符以及所述常用字符,并将所述展示字符中与所述常用字符相同的字符确定为所述待替换展示字符。
其中,预先配置的常用字符与字符编码的对应关系中,常用字符的数量可以自定义,但,对应关系中的常用字符数量可以少于展示字符的数量。那么,在本方案中,首先获取反爬文件中的展示字符,例如:“今天天气好晴朗,你们都好吗?有没有出去玩?”。然后,在表1中,首先对比展示字符以及常用字符,将所述展示字符中与所述常用字符相同的字符确定为所述待替换展示字符,即,常用字符包括“你们好吗?”,那么,待替换展示字符为“你们好吗?”,而不是全部的展示字符“今天天气好晴朗,你们都好吗?有没有出去玩?”。
可见,本步骤可以自动将网页中的所有展示字符进行对比,确定出待替换展示字符。当然,待替换展示字符还可以基于编程人员的操作进行自定义。
除此,如图3所示,本实施例提供的反爬虫的数据处理方法,还在获取待替换展示字符之前,还包括步骤:
S31、配置常用字符与字符编码的对应关系;和/或,
S32、定义字符编码对应的字体样式。
具体的,本实施例中,常用字符与字符编码的对应关系可以进行自定义,如,常用字符与字符编码的对应关系可以为表1所示,即,待替换展示字符“你们好吗?”对应的字符编码为“ABCDE”。还可以为其他对应关系,如,待替换展示字符“你们好吗?”对应的字符编码为“EDCBA”。
并且,本实施例中,还可以定义每个字符编码的字体样式,如表2所示:
表2
常用字符 字体样式 字符编码
1 A
2 AA
3 aa
1 B
2 BB
3 bb
1 C
2 CC
3 cc
1 D
2 DD
3 dd
1 E
2 EE
3 ee
从图中不难发现,在本实施例中,同一个“常用字符”具有3种字体样式。每一个字体样式下,同样的常用字符对应的字符编码不同。具体的,当字体样式为1时,待替换展示字符“你们好吗?”对应的字符编码为“ABCDE”。因此,将源代码替换为目标字符编码“ABCDE”。
当字体样式为2时,待替换展示字符“你们好吗?”对应的字符编码为“AABBCCDDEE”。因此,将源代码替换为目标字符编码“AABBCCDDEE”。
当字体样式为3时,待替换展示字符“你们好吗?”对应的字符编码为“aabbccddee”。因此,将源代码替换为目标字符编码“aabbccddee”。
具体的,如图4所示,上述步骤S13可以具体为:
S41、根据所述字符编码对应的字体样式,确定所述目标字符编码对应的目标字符样式;
S42、将所述待替换展示字符对应的源代码替换为具有目标字符样式的目标字符编码。
需要说明的是,在本实施例中,每个字符编码均具有唯一的字体样式,该字体样式可以为对应字符编码的名称,还可以为对应字符编码的属性值。其中,字体样式是用于区分多种字符编码的一个特征标识。
本步骤中的目标字体样式,可以是系统随机分配的字体样式,还可以是基于用户的操作指定的某一字体样式。例如,编码人员在进行反爬虫部署前,指定目标字体样式为上述表格中的字体样式“1”,那么,本步骤获取到的目标字体样式即为字体样式1。
具体的,步骤S41根据字符编码对应的字体样式,确定出目标字符编码对应的目标字符样式。结合上文,假设目标字符编码对应的目标字符样式为字体样式“1”。然后,将所述待替换展示字符“你们好吗?”对应的源代码“nimenhaoma”替换为具有目标字符样式1的目标字符编码“ABCDE”。
可见,采用本实施例提供的反爬虫的数据处理方法,当爬虫进行数据爬取时,爬虫爬取到的数据为已经替换后的字符编码,并非网站显示的目标字符,以达到反爬的目的。
在上述实施例的基础上,如图5所示,本实施例提供的反爬虫的数据处理方法,还可以包括:
S51、按照预设时间间隔,更新所述常用字符与所述字符编码的对应关系,以使相同的常用字符对应不同的字符编码;或者,
按照预设时间间隔,更换所述常用字符,并重新配置所述常用字符与所述字符编码的对应关系。
发明人考虑到常用字符与字符编码的对应关系可能被破解,因此,可以通过定期更换常用字符与字符编码的对应关系的方式,来进一步提高爬虫获取真实数据的难度。
或者,通过更换常用字符,重新配置所述常用字符与所述字符编码的对应关系,来进一步提高爬虫获取真实数据的难度。
除此,在上述实施例的基础上,与上述方法相对应,本发明实施例还提供了一种反爬虫的数据处理装置,请参阅图6,示出了该反爬虫的数据处理装置的结构示意图,该反爬虫的数据处理装置包括:
第一获取模块61,用于获取待替换展示字符及所述待替换展示字符对应的源代码;
第一确定模块62,用于基于预先配置的常用字符与字符编码的对应关系,确定所述待替换展示字符对应的目标字符编码;
替换模块63,用于将所述待替换展示字符对应的源代码替换为所述目标字符编码。
其中,第一获取模块可以包括:
获取单元,用于获取反爬文件中的展示字符;
对比单元,用于对比所述展示字符以及所述常用字符,并将所述展示字符中与所述常用字符相同的字符确定为所述待替换展示字符。
除此,本实施例提供的反爬虫的数据处理装置,还包括:
配置模块,用于配置常用字符与字符编码的对应关系;和/或,定义字符编码对应的字体样式。
具体的,上述替换模块可以包括:
确定单元,用于根据所述字符编码对应的字体样式,确定所述目标字符编码对应的目标字符样式;
替换单元,用于将所述待替换展示字符对应的源代码替换为具有目标字符样式的目标字符编码。
在上述实施例的基础上,本实施例提供的反爬虫的数据处理装置,还包括:
定时模块,用于按照预设时间间隔,更新所述常用字符与所述字符编码的对应关系,以使相同的常用字符对应不同的字符编码;或者,
按照预设时间间隔,更换所述常用字符,并重新配置所述常用字符与所述字符编码的对应关系。
所述数据监测装置包括处理器和存储器,上述第一获取模块、替换模块、第一确定模块等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,将所述待替换展示字符对应的源代码替换为所述目标字符编码。这样,当爬虫对源代码进行爬取时,爬取到的是经过替换后的目标字符编码,而爬虫方并不知道预先配置的常用字符与字符编码的对应关系,因此,基于当前爬取的目标字符编码,不能解析出真实的展示字符的内容,实现了反爬。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述任务状态处理方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述任务状态处理方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
获取待替换展示字符及所述待替换展示字符对应的源代码;
基于预先配置的常用字符与字符编码的对应关系,确定所述待替换展示字符对应的目标字符编码;
将所述待替换展示字符对应的源代码替换为所述目标字符编码。
可选的,所述获取待替换展示字符,包括:
获取反爬文件中的展示字符;
对比所述展示字符以及所述常用字符,并将所述展示字符中与所述常用字符相同的字符确定为所述待替换展示字符。
可选的,在获取待替换展示字符之前,所述方法还包括:
配置常用字符与字符编码的对应关系;和/或,
定义字符编码对应的字体样式。
可选的,将所述待替换展示字符对应的源代码替换为所述目标字符编码,包括:
根据所述字符编码对应的字体样式,确定所述目标字符编码对应的目标字符样式;
将所述待替换展示字符对应的源代码替换为具有目标字符样式的目标字符编码。
可选的,所述方法还包括:
按照预设时间间隔,更新所述常用字符与所述字符编码的对应关系,以使相同的常用字符对应不同的字符编码;或者,
按照预设时间间隔,更换所述常用字符,并重新配置所述常用字符与所述字符编码的对应关系。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
获取待替换展示字符及所述待替换展示字符对应的源代码;
基于预先配置的常用字符与字符编码的对应关系,确定所述待替换展示字符对应的目标字符编码;
将所述待替换展示字符对应的源代码替换为所述目标字符编码。
可选的,所述获取待替换展示字符,包括:
获取反爬文件中的展示字符;
对比所述展示字符以及所述常用字符,并将所述展示字符中与所述常用字符相同的字符确定为所述待替换展示字符。
可选的,在获取待替换展示字符之前,所述方法还包括:
配置常用字符与字符编码的对应关系;和/或,
定义字符编码对应的字体样式。
可选的,将所述待替换展示字符对应的源代码替换为所述目标字符编码,包括:
根据所述字符编码对应的字体样式,确定所述目标字符编码对应的目标字符样式;
将所述待替换展示字符对应的源代码替换为具有目标字符样式的目标字符编码。
可选的,所述方法还包括:
按照预设时间间隔,更新所述常用字符与所述字符编码的对应关系,以使相同的常用字符对应不同的字符编码;或者,
按照预设时间间隔,更换所述常用字符,并重新配置所述常用字符与所述字符编码的对应关系。
综上所述,本发明提供了一种反爬虫的数据处理方法、装置、系统以及存储介质,首先获取待替换展示字符及所述待替换展示字符对应的源代码。然后,基于预先配置的常用字符与字符编码的对应关系,确定所述待替换展示字符对应的目标字符编码。最后,将所述待替换展示字符对应的源代码替换为所述目标字符编码。这样,当爬虫对源代码进行爬取时,爬取到的是经过替换后的目标字符编码,而爬虫方并不知道预先配置的常用字符与字符编码的对应关系,因此,基于当前爬取的目标字符编码,不能解析出真实的展示字符的内容,实现了反爬。并且本反爬方法既能抑制爬虫获取网站的真实数据,又不降低非爬虫用户的操作感。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种反爬虫的数据处理方法,其特征在于,包括:
获取待替换展示字符及所述待替换展示字符对应的源代码;
基于预先配置的常用字符与字符编码的对应关系,确定所述待替换展示字符对应的目标字符编码;
将所述待替换展示字符对应的源代码替换为所述目标字符编码。
2.根据权利要求1所述的反爬虫的数据处理方法,其特征在于,所述获取待替换展示字符,包括:
获取反爬文件中的展示字符;
对比所述展示字符以及所述常用字符,并将所述展示字符中与所述常用字符相同的字符确定为所述待替换展示字符。
3.根据权利要求1所述的反爬虫的数据处理方法,其特征在于,在获取待替换展示字符之前,所述方法还包括:
配置常用字符与字符编码的对应关系;和/或,
定义字符编码对应的字体样式。
4.根据权利要求3所述的反爬虫的数据处理方法,其特征在于,将所述待替换展示字符对应的源代码替换为所述目标字符编码,包括:
根据所述字符编码对应的字体样式,确定所述目标字符编码对应的目标字符样式;
将所述待替换展示字符对应的源代码替换为具有目标字符样式的目标字符编码。
5.根据权利要求1所述的反爬虫的数据处理方法,其特征在于,所述方法还包括:
按照预设时间间隔,更新所述常用字符与所述字符编码的对应关系,以使相同的常用字符对应不同的字符编码;或者,
按照预设时间间隔,更换所述常用字符,并重新配置所述常用字符与所述字符编码的对应关系。
6.一种反爬虫的数据处理装置,其特征在于,包括:
第一获取模块,用于获取待替换展示字符及所述待替换展示字符对应的源代码;
第一确定模块,用于基于预先配置的常用字符与字符编码的对应关系,确定所述待替换展示字符对应的目标字符编码;
替换模块,用于将所述待替换展示字符对应的源代码替换为所述目标字符编码。
7.根据权利要求6所述的反爬虫的数据处理装置,其特征在于,还包括:
配置模块,用于配置常用字符与字符编码的对应关系;和/或,定义字符编码对应的字体样式。
8.根据权利要求6所述的反爬虫的数据处理装置,其特征在于,还包括:
定时模块,用于按照预设时间间隔,更新所述常用字符与所述字符编码的对应关系,以使相同的常用字符对应不同的字符编码;或者,
按照预设时间间隔,更换所述常用字符,并重新配置所述常用字符与所述字符编码的对应关系。
9.一种反爬虫的数据处理系统,其特征在于,包括:
存储器,用于存储程序;
处理器,用于执行所述程序,所述程序运行时执行如权利要求1-5中任意一项所述的反爬虫的数据处理方法。
10.一种存储介质,其特征在于,存储有程序,所述程序被处理器执行时实现如权利要求1-5中任意一项所述的反爬虫的数据处理方法。
CN201811138544.9A 2018-09-28 2018-09-28 一种反爬虫的数据处理方法、装置、系统及存储介质 Pending CN110990799A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811138544.9A CN110990799A (zh) 2018-09-28 2018-09-28 一种反爬虫的数据处理方法、装置、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811138544.9A CN110990799A (zh) 2018-09-28 2018-09-28 一种反爬虫的数据处理方法、装置、系统及存储介质

Publications (1)

Publication Number Publication Date
CN110990799A true CN110990799A (zh) 2020-04-10

Family

ID=70059745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811138544.9A Pending CN110990799A (zh) 2018-09-28 2018-09-28 一种反爬虫的数据处理方法、装置、系统及存储介质

Country Status (1)

Country Link
CN (1) CN110990799A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113360930A (zh) * 2021-06-28 2021-09-07 广州市保伦电子有限公司 一种实现前后端字符相异加密方法及处理终端
CN113553601A (zh) * 2020-04-23 2021-10-26 上海云盾信息技术有限公司 一种网页页面内容加密方法及设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CARRY_NJ: "字体反爬", 《HTTPS://BLOG.CSDN.NET/XKX_07_10/ARTICLE/DETAILS/82429812》 *
傲雪星枫: "利用自定义web-font实现数据防采集", 《HTTPS://BLOG.CSDN.NET/FDIPZONE/ARTICLE/DETAILS/68166388》 *
谢俊杰: "汽车之家字体反爬破解实践", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/32087297》 *
谦面客: "反爬虫解析-字体替换(天眼查/猫眼电影)", 《HTTPS://WWW.JIANSHU.COM/P/79C4272C0969》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113553601A (zh) * 2020-04-23 2021-10-26 上海云盾信息技术有限公司 一种网页页面内容加密方法及设备
CN113553601B (zh) * 2020-04-23 2023-04-18 上海云盾信息技术有限公司 一种网页页面内容加密方法及设备
CN113360930A (zh) * 2021-06-28 2021-09-07 广州市保伦电子有限公司 一种实现前后端字符相异加密方法及处理终端

Similar Documents

Publication Publication Date Title
US20180239744A1 (en) Application page quick access
CN106610774B (zh) 网页表格编辑方法及装置
CN112487083B (zh) 一种数据校验方法和设备
CN108874379B (zh) 页面的处理方法及装置
CN109597983A (zh) 一种拼写纠错方法及装置
CN104268229A (zh) 一种基于多进程浏览器的资源获得方法及装置
CN112181902A (zh) 数据库的存储方法、装置及电子设备
CN103870480A (zh) 动态数据遮罩方法以及数据库系统
CN110990799A (zh) 一种反爬虫的数据处理方法、装置、系统及存储介质
US10437838B2 (en) Search navigation element
CN114138745A (zh) 数据的集成方法、装置、存储介质及处理器
CN108241620B (zh) 查询脚本的生成方法及装置
CN111159192B (zh) 基于大数据的数据入库方法、装置、存储介质和处理器
CN111125087B (zh) 数据的存储方法及装置
CN112016067A (zh) 一种用户身份核验方法及装置
CN108984572B (zh) 网站信息推送方法及装置
CN110955813A (zh) 一种数据爬取方法及装置
CN115659045A (zh) 用户操作的识别方法、装置、存储介质以及电子设备
CN110968754B (zh) 一种爬虫翻页策略的检测方法及装置
CN107608947B (zh) Html文件处理方法及装置、电子设备
CN107436918B (zh) 数据库实现方法、装置和设备
CN110019198B (zh) 数据查询方法和装置
CN114594945A (zh) 高级弹窗选择框的生成方法、装置、系统、设备以及介质
CN112541327A (zh) 一种数据读取方法、装置、电子设备及存储介质
CN110968758B (zh) 网页数据的爬取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200410