CN111339548A

CN111339548A - 反爬虫的数据处理方法、浏览器、计算机设备及存储介质

Info

Publication number: CN111339548A
Application number: CN201811547304.4A
Authority: CN
Inventors: 单开元
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2018-12-18
Filing date: 2018-12-18
Publication date: 2020-06-26
Anticipated expiration: 2038-12-18
Also published as: CN111339548B

Abstract

本发明实施例提供一种反爬虫的数据处理方法、浏览器、计算机设备及存储介质，所述反爬虫的数据处理方法包括：根据针对目标页面的数据请求，接收返回的响应数据，获取所述响应数据中的待处理数据；将所述待处理数据按照预设比例进行分割得到多个目标数据，将所述多个目标数据分别根据不同的渲染策略进行渲染；展示渲染完成后的所述目标页面。

Description

反爬虫的数据处理方法、浏览器、计算机设备及存储介质

技术领域

本发明涉及信息安全技术，尤其是涉及一种反爬虫的数据处理方法、浏览器、计算机设备及存储介质。

背景技术

目前，随着网络的快速发展，互联网承载了越来越多的信息。传统的搜索引擎已不能满足人们精准、快速获取自己想要内容的需求，越来越多的人使用爬虫技术获取网站信息。

信息发布者为了确保通过网站发布的信息最终能够被目标用户使用，而不会被非目标用户通过爬虫技术获取而用于非正当用途，往往需要对网站采取反爬虫技术。然而，相关技术中，常用的反爬虫技术均存在容易破解的缺陷。

发明内容

本发明实施例提供一种反爬虫的数据处理方法、浏览器、计算机设备及存储介质，确保数据准确展示的前提下，有效降低爬虫在网页的行为能力，提高破解难度。

本发明实施例的技术方案是这样实现的：

第一方面，本发明实施例提供一种反爬虫的数据处理方法，包括：根据针对目标页面的数据请求，接收返回的响应数据，获取所述响应数据中的待处理数据；将所述待处理数据按照预设比例进行分割得到多个目标数据，将所述多个目标数据分别根据不同的渲染策略进行渲染；展示渲染完成后的所述目标页面。

第二方面，本发明实施例提供一种浏览器，包括数据获取模块，用于根据针对目标页面的数据请求，接收返回的响应数据，获取所述响应数据中的待处理数据；渲染模块，用于将所述待处理数据按照预设比例进行分割得到多个目标数据，将所述多个目标数据分别根据不同的渲染策略进行渲染；展示模块，用于展示渲染完成后的所述目标页面。

第三方面，本发明实施例提供一种计算机设备，包括存储器和处理器，所述存储器用于存储可执行指令；所述处理器用于执行所述存储器中存储的可执行指令，实现本发明实施例提供的反爬虫的数据处理方法。

第四方面，本发明实施例提供一种存储介质，所述存储介质中存储有可执行指令，当所述可执行指令被执行时，用于引起处理器执行本发明实施例提供的反爬虫的数据处理方法。

本发明实施例具有以下有益效果：

通过将待处理数据按照预设比例进行分割得到多个目标数据，将所述多个目标数据分别根据不同的渲染策略进行渲染，如此，通过将同一待处理数据分割成多个目标数据，并采用不同的渲染策略对目标数据进行渲染后再展示，由于对同一待处理数据所采用的渲染策略的非固定性和多样性，从而大大增加了破解的难度，可以有效降低爬虫在网页的行为能力，不仅可以确保数据的正常展示，而且可以有效保护网页数据。

附图说明

图1本发明实施例提供的反爬虫的数据处理方法的流程示意图；

图2本发明另一实施例提供的反爬虫的数据处理方法的流程示意图；

图3是本发明实施例一可选的具体实施例提供的反爬虫的数据处理方法的流程示意图；

图4是本发明一实施例提供的浏览器的结构示意图；

图5是本发明一实施例提供的计算机设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)爬虫(web crawler)，又称网页蜘蛛，网络机器人，是指按照一定的规则，自动地抓取网络信息的程序或者脚本。

2)反爬虫，是指为了避免爬虫自动抓取网络信息而采用的相关技术，如根据IP访问频率、账户登陆权限、验证码、flash封装、js加密等来避免爬虫获取数据的反爬虫技术。

3)超文本标记语言(HyperText Mackeup Language，HTML)，是一种描述性的标记语言，用于描述超文本中内容的显示方式。比如字体颜色，大小等。

4)标签，也称为标记，是一种HTML的网络术语，每一种标签用于规定特定的含义。

5)网页，由各种标记组成的页面。

6)渲染，是指浏览器将HTML代码根据CSS定义的规则显示在浏览器窗口的过程。

渲染是由浏览器的渲染引擎完成，渲染引擎进行渲染的过程主要包括：解析HTML代码，将标签转换为内容树中的dom节点；解析外部CSS文件及样式(style)标签中的样式信息，通过样式信息及dom节点构建Render树，主要包含元素的大小、颜色等属性，隐藏的元素不会被构建到Render树中；Render树构建好之后，执行布局过程，通过遍历Render树确定元素的显示位置；使用UI后端层绘制Render树进行显示。

7)样式(style)，是指一种改变HTML元素样式的方式。通过HTML样式，能够通过使用style属性直接将样式添加到HTML元素，或者间接地在独立的样式表中(CSS文件)进行定义。

8)敏感数据，是指不当使用或未经授权被人接触或修改会不利于公共利益或不利于个人依法享有的个人隐私权的所有信息。

目前，随着网络的快速发展，使用爬虫技术获取网站信息的现象越来越普及，为了保护网络数据的安全性，本发明的发明人在研究中发现，相关技术中主要的前端反爬虫技术包括如下：

1)前端字体(FONT-FACE)拼凑式，页面使用FONT-FACE定义了字符集，并通过统一码(unicode)进行映射展示，爬虫抓取信息时需要同时爬取到字符集，才能识别出数字；其次，每次刷新页面，字符集的统一资源定位符(url)都会变化，使得增加爬虫抓取信息的难度。

2)背景(BACKGROUND)拼凑式，将数字内容存在图片格式，根据不同的BACKGROUND属性进行偏移，显示出不同的字符。

3)元素定位覆盖式，使用标签绝对定位去覆盖错误的标签，视觉上形成正确的展示；以四位数字数据为例，先用四个i标签渲染，再用两个b标签去绝对定位偏移量，覆盖故意展示错误的i标签，最后在视觉上形成正确的数字显示。

4)伪元素隐藏式，将保护数据写入伪元素的内容(content)里。

然而，本发明的发明人在研究中发现，相关技术中，为了能够提升反爬虫技术的破解难度，不断的尝试研究不同的数据保护或隐藏的手段，正如上所述的反爬虫技术的出现，然而这些手段因为方法固定，从而最终均会被新的爬虫程序找出可循规律而被破解，无法有效保护网页数据。

基于此，请参阅图1，为本发明实施例提供的反爬虫的数据处理方法的可选的流程示意图，可应用于浏览器中，该方法包括如下步骤。

步骤101，根据针对目标页面的数据请求，接收返回的响应数据，获取所述响应数据中的待处理数据；

这里，浏览器根据针对目标页面的数据请求，接收返回的响应数据可以是指，浏览器获取用户输入的网址，根据所输入的网址向服务器发出对应的数据请求，并接收服务器根据所述数据请求异步返回响应数据。浏览器可以基于异步JS(JavaScript)和XML(Asynchronous JavaScript And XML，Ajax)与服务器之间进行交互，传输数据格式可以为XML(extensible markup language，可扩展标记语言)。以网站登陆为例，浏览器接收用户输入的网址信息，基于Ajax技术给服务器发送用户输入的网址信息，服务器将验证的结果用JSON格式的字符串发回响应，浏览器前端用JS来解析JSON数据，如果有错误信息，就通过JS在页面添加错误提示；如果验证通过，则进行加载渲染HTML文件后跳转至对应的页面。

步骤103，将所述待处理数据按照预设比例进行分割得到多个目标数据，将所述多个目标数据分别根据不同的渲染策略进行渲染；

这里，待处理数据可以是响应数据中的符合预设条件的部分数据，也可以是指符合预设条件的全部响应数据。其中，所述待处理数据可以包括响应数据中符合预设条件的多条数据，依序将每一条数据分别作为待处理数据执行本申请实施例提供的反爬虫的数据处理方法，直至所述响应数据中的多条数据依序处理完成。这里，预设比例可以是指在对待处理数据进行分割之前事先设定的任意比例，如预设比例可以是1:1的半均分比例，可以将待处理数据分割形成相同长度的两个目标数据；如预设比例可以是1:2的比例，可以将待处理数据分割形成长度为一比二的两个目标数据；如该预设比例可以是1:1:1的三等分比例，可以将待处理数据分割形成相同长度的三个目标数据。这里，渲染策略分别与目标数据的数量进行对应，所述不同的渲染策略可以是指相关技术中的不同反爬虫技术对目标数据进行渲染所形成的渲染策略。通过对同一待处理数据分割后采用不同的渲染策略进行渲染，可以使得对同一待处理数据进行渲染的方式并不固定，通过不同渲染策略的组合，可以打破采用任意单一渲染策略的规律性，从而可以大大增加破解的难度。

以预设比例为1:1、且渲染策略包括第一渲染策略和第二渲染策略为例，浏览器将所述待处理数据按照预设比例进行分割得到多个目标数据，将所述多个目标数据分别根据不同的渲染策略进行渲染，包括：浏览器将所述待处理数据按照预设比例进行分割得到相同长度的两个目标数据，将所述两个目标数据分别根据第一渲染策略和第二渲染策略进行渲染。

步骤105，展示渲染完成后的所述目标页面。

浏览器通过加载数据并进行渲染，当目标页面对应的数据渲染完成后将页面绘制到屏幕上，以展示渲染完成后的所述目标页面。

本申请上述实施例所提供的反爬虫的数据处理方法中，通过将待处理数据按照预设比例进行分割得到多个目标数据，将所述多个目标数据分别根据不同的渲染策略进行渲染，如此，通过将同一待处理数据分割成多个目标数据，并采用不同的渲染策略对目标数据进行渲染后再展示，由于对同一待处理数据所采用的渲染策略的非固定性和多样性，从而大大增加了破解的难度，可以有效降低爬虫在网页的行为能力，不仅可以确保数据的正常展示，而且可以有效保护网页数据。

在一些实施例中，请参阅图2，所述步骤103，将所述待处理数据按照预设比例进行分割得到多个目标数据，将所述多个目标数据分别根据不同渲染策略进行渲染，包括：

步骤1031，将所述待处理数据按照第一预设比例进行分割得到第一目标数据和第二目标数据；

这里，第一预设比例是指将待处理数据分割为两个目标数据的两个比的预设比例。为了便于描述，将所述两个目标数据分别称为第一目标数据和第二目标数据，本申请实施例中，第一目标数据和第二目标数据可以互换，如可以将待处理数据进行分割后位于在前部分的作为第一目标数据、位于在后部分的作为第二目标数据；或者将待处理数据进行分割后位于在前部分的作为第二目标数据、位于在后部分的作为第一目标数据。

步骤1032，获取随机生成的字符串，根据所述字符串和所述第一目标数据形成伪类样式，将所述伪类样式插入所述目标页面中；

这里，与第一目标数据对应的渲染策略是指基于随机字符串和伪类样式的第一渲染策略。伪类样式又称为伪元素样式，伪元素是指创造关于文档语言能够指定的文档树之外的抽象，例如文档语言不能提供访问元素内容第一字或第一行的机制，伪元素可以提供用于在源文档中不存在的内容分配样式。伪元素的主要分类及作用可以如下表一所示：

表一

伪元素	作用
		:first-letter	将特殊的样式添加到文本的首字母
:first-line	将特殊的样式添加到文本的首行
		:before	在某元素之前插入某些内容
:after	在某元素之后插入某些内容

其中，:before和:after下特有的content，用于在CSS渲染中向元素逻辑上的头部或尾部添加内容，这些添加不会出现在dom中，不会改变文档内容，不可复制，仅仅是在CSS渲染层中加入。这里，浏览器根据字符串和第一目标数据形成伪类样式，将所述伪类样式插入所述目标页面中可以包括：浏览器从伪元素:before和:after中随机选取一个，如果选择:before，则按照预设比例截取待处理数据的在前部分的第一目标数据，将所述字符串与所述第一目标数据拼接组成CSS伪类样式，并将所述伪类样式插入HTML中，其中，未截取的在后部位为第二目标数据。可选的，浏览器根据字符串和第一目标数据形成伪类样式，将所述伪类样式插入所述目标页面中可以包括：浏览器从伪元素:before和:after中随机选取一个，如果选择:after，则按照预设比例截取待处理数据的在后部分的第一目标数据，将所述字符串与所述第一目标数据拼接组成CSS伪类样式，并将所述伪类样式插入HTML中，其中，未截取的在前部分为第二目标数据。

步骤1033，随机选取目的标签，根据所述第二目标数据形成所述目的标签的内容，将所述目的标签插入所述目标页面中。

这里，与第二目标数据对应的渲染策略是指基于随机标签(Tag)的第二渲染策略。标签是HTML语言中最基本的单位，是指由尖括号包围的关键词，比如<HTML>标签、<head>标签、<body>标签等，每一种标签通过HTML规范用于规定特定的含义。以<HTML>标签、<head>标签、<body>标签为例，网页的内容需要在<HTML>标签中，标题、字符格式、语言、兼容性、关键字、描述等信息显示在<head>标签中，而网页需展示的内容需嵌套在<body>标签中。所述待选标签可以包括HTML规范中的任意类型标签，而随机选取目的标签可以为待选标签中的任一标签。浏览器根据第二目标数据形成所述目的标签的内容，将所述目的标签插入所述目标页面中，包括：浏览器根据从伪元素中随机选取一个，按照预设比例截取待处理数据的相应部分的第一目标数据与所述字符串拼接组成CSS伪类样式，将未截取的其它部分作为第二目标数据插入目的标签中，并将所述目的标签插入HTML中。

在一些实施例中，所述将所述目的标签插入所述目标页面中之前，包括：根据预设规则确定所述目的标签的属性，将所述属性写入所述目的标签。标签的属性通常是以名称/值对的形式出现，比如name＝“value”，且通常是在HTML元素的开始标签中规定。常用的HTML元素的属性及其对应的描述可以如下表所示：

表二

属性	值	描述
			class	classname	规定元素的类名(classname)
id	id	规定元素的唯一id
			style	style_definition	规定元素的行内样式(inline style)
title	text	规定元素的额外信息(可在工具提示中显示)

可选的，浏览器根据预设规则确定所述目的标签的属性，将所述属性写入所述目的标签，包括：浏览器将所述字符串作为class名，将所述class名作为所述目的标签的属性写入所述目的标签。

上述实施例中，浏览器通过将待处理数据进行分割得到的第一目标数据和第二目标数据，将所述第一目标数据根据基于随机字符串和伪类样式的第一渲染策略进行渲染、将所述第二目标数据根据基于随机标签的第二渲染策略进行渲染，通过将待处理数据进行分割并分别生成伪类样式渲染文本和随机标签渲染文本再插入到目标页面中，打破了采用任意单一渲染策略的规律性，从而可以大大增加破解的难度；其中第一渲染策略中生成字符串的随机性和第二渲染策略中目的标签的随机性，可以进一步打破渲染策略破解时的规律可循性，有效地降低爬虫在网页的行为能力，基本可以达到百分之百防止爬虫对待处理数据的抓取，有效保护网页数据。

在一些实施例中，所述获取随机生成的字符串之前，包括：构建包含多个待选字符的字符集，所述待选字符包括如下至少一种：数字字符、字母字符、符号字符；

所述获取随机生成的字符串，包括：从所述字符集中随机选取至少一待选字符，根据所述至少一待选字符生成设置长度的随机的字符串。

这里，所述字符集的大小不做限制。以待选字符包括阿拉伯数字0-9以及26个英文字母的大小写为例，所构建的字符集的一可选的表示方式为：[0，1，2，3，4，5，6，7，…，a，b，c，…]。字符串的设置长度可以预先设置的任意长度，通常以不大于字符集中包含的字数的总数量为宜，在一实施例中，该字符串的长度可以为10，如adz12hda3k。需要说明的是，根据待选字符生成设置长度的随机的字符串，可以是选取数量少于字符串的设置长度的待选字符并通过待选字符的随机重复形成所述字符串，也即，字符的数量可以为一个或者多个，藉由字符的可随机重复而形成所需长度的字符串；或者也可以是选择数量与字符串的设置长度相等的待选字符依序构成所述字符串。

本申请实施例中，通过预先构建包含多个待选字符的字符集，便于根据该字符集快速生成随机的包含相应类型待选字符的随机字符串，从而便于基于随机字符串和伪类样式的第一渲染策略对第一目标数据进行渲染时，可以快速获取到随机的字符串，并根据所述字符串和第一目标数据形成伪类样式插入到目标页面中。

在一些实施例中，所述随机选取目的标签之前，包括：构建包含多个待选标签的标签库，所述待选标签包括超文本标记语言HTML标签；

所述随机选取目的标签，包括：从所述标签库中随机选取其中之一待选标签作为目的标签。

这里，HTML标签可以是指HTML规范中的标签，如下表格三所示，常用的标签主要包括p、a、span、strong、em、div等。

表三

标签	描述
		<p>	定义段落
<a>	定义锚
		<span>	定义文档中的节
<strong>	定义强调文本
		<em>	定义强调文本
<div>	定义文档中的分区或节

所述标签库的大小不做限制。以标签库包括但不限于上述表格中的常用标签为例，所构建的标签库的一可选的表示方式为：[p，a，span，strong，em，div…]。浏览器随机选取目的标签，包括：浏览器从所述标签库中随机选取其中之一待选标签作为目的标签。

本申请实施例中，通过预先构建包含多个待选标签的标签库，便于根据该标签库快速选取到目的标签，从而便于采用基于随机标签的第二渲染策略对第二目标数据进行渲染时，可以快速获取随机的目的标签，通过根据第二目标数据插形成目的标签的内容后，再将目的标签插入到目标页面中。

在一些实施例中，所述根据所述第二目标数据形成所述目的标签的内容，包括：

获取所述待处理数据的字体属性，调用绘制图像应用接口根据所述第二目标数据和所述字体属性生成文字图片，根据所述文字图片和所述第二目标数据形成所述目的标签的内容。

这里，绘制图像应用可以是指Canvas应用。字体属性包括字体大小、字体颜色等。浏览器获取所述待处理数据的字体属性，调用绘制图像应用接口根据所述待处理数据和所述字体属性生成文字图片，根据所述文字图片和所述第二目标数据形成所述目的标签的内容，可以包括：浏览器获取待处理数据的字体大小、字体颜色等字体属性，调用Canvas应用接口(Application Programming Interface，API)按照所述待处理数据的相同字体属性，将所述第二目标数据中的至少一部分文字画入图形内形成文字图片，并将所述文字图片与第二目标数据的其它部分文字结合后插入目的标签中；或者，浏览器获取待处理数据的字体大小、字体颜色等字体属性，调用Canvas应用接口(Application ProgrammingInterface，API)按照所述待处理数据的相同字体属性，将所述第二目标数据画入图形内形成文字图片，并将所述文字图片插入目的标签中。

本申请实施例中，将所述第二目标数据根据基于随机标签的第二渲染策略进行渲染的过程中，进一步通过使用绘制图像应用按照样式中的字体大小、字体颜色将所述第二目标数据的至少一部分生成图片，通过将第二目标数据的全部或者部分存为固定的图片的形式进行渲染展示，在保证数据准确展示的同时防止爬虫对数据的抓取，如此，增加了反爬虫策略的非固定性和多样性，大大增加了反爬虫策略的破解难度。

所述调用绘制图像应用接口根据所述第二目标数据和所述字体属性生成文字图片，根据所述文字图片和所述第二目标数据形成所述目的标签的内容，包括：

将所述第二目标数据按照第二预设比例分割得到第三目标数据和第四目标数据，调用绘制图像应用接口根据所述字体属性将所述第四目标数据生成文字图片，将所述文字图片和所述第三目标数据结合插入所述目的标签中，将所述字符串作为属性写入所述目的标签中。

这里，第二预设比例是指将待处理数据分割为两个目标数据的两个比的预设比例，为了便于描述，将所述两个目标数据分别称为第三目标数据和第四目标数据。本申请实施例中，第三目标数据和第四目标数据可以互换，如可以将第二目标数据进行分割后位于在前部分的作为第三目标数据和位于在后部分的作为第四目标数据；或者，将第二目标数据进行分割后位于在前部分的作为第四目标数据和位于在后部分的作为第三目标数据。

以预设比例为1:1的半分比例为例，浏览器将所述第二目标数据按照第二预设比例分割得到第三目标数据和第四目标数据，调用绘制图像应用接口根据所述字体属性将所述第四目标数据生成文字图片，将所述文字图片和所述第三目标数据结合插入所述目的标签中，将所述字符串作为属性写入所述目的标签中，可以包括：浏览器将第二目标数据按照均分的方式分为前半部分的第三目标和后半部分的第四目标数据，调用Canvas API按照样式中的字体大小、字体颜色将第四目标数据画入图形内，生成带有第四目标数据内容的文字图片，并将所述文字图片与第三目标数据结合后插入目的标签中，并将字符串作为目的标签的属性写入所述目的标签中。

在一些实施例中，所述获取所述响应数据中的待处理数据，包括：

根据设置的敏感数据筛选策略对所述响应数据进行筛选，确定所述响应数据中包含敏感数据时，将所述敏感数据作为待处理数据。

这里，敏感数据是指不当使用或未经授权被人接触或修改会不利于公共利益或不利于个人依法享有的个人隐私权的所有信息。需要说明的是，相同的数据在某一应用场景可能属于敏感数据，然而在另一应用场景中可能属于非敏感数据，如人名，在部分场景中人名结合其其它身份信息的泄露可能导致个人隐私事件的公开，从而应该被作为敏感数据，而在部分场景中人名仅仅起到相互区别的作用，从而不被作为敏感数据，其中，敏感数据筛选策略则是指能够对敏感数据进行识别的各种规则的组合。

在一个实施例中，所述根据设置的敏感数据筛选策略对所述响应数据进行筛选，包括：

根据预先构建的敏感数据特征库对所述响应数据进行匹配，根据匹配的结果确定敏感数据。

敏感数据特征库可以包括不同的敏感数据所包含的关键词、关键要素等内容的敏感数据匹配正则表达式，比如银行卡号的数字位数、符合相应密码设置规则的用户密码等。通过预先构建敏感数据特征库，可以基于该敏感数据特征库与响应数据进行匹配，根据匹配的结果确定对应的敏感数据。

本申请实施例中，浏览器将Ajax异步返回的响应数据做敏感数据筛选，将筛选得到的一条或者多条敏感数据分别作为待处理数据，一方面减小了数据处理量以提升处理效率，另一方面通过对敏感数据的保护，从而完成了对响应数据的全面保护。

在一些实施例中，所述展示渲染完成后的所述目标页面之前，还包括：

确定所述目标页面的响应数据中是否还包括待处理数据；

若是，则返回执行所述将所述待处理数据按照预设比例进行分割得到多个目标数据，将所述多个目标数据分别根据不同的渲染策略进行渲染的步骤。

这里，待处理数据可以是多条，对待处理数据的处理可以逐条进行，针对每一条待处理数据按照预设比例进行分割得到多个目标数据，将所述多个目标数据分别根据不同的渲染策略进行渲染，如此反复循环，直至全部待处理数据渲染完毕。

为了能够对本发明实施例提供的反爬虫的数据处理方法的实现原理的进一步理解，下面以第一渲染策略为基于随机字符串和伪类样式的渲染策略、第二渲染策略为基于随机标签的渲染策略为例，对反爬虫的数据处理方法的流程进行说明，请参阅图3，该反爬虫的数据处理方法包括如下步骤：

S11，构建标签库；其中，标签库中包括HTML规范中的各类标签，该标签库的大小不做限制，如标签库可以为：[p，a，span，strong，em，div…]。

S12，构建字符集；其中，字符集中可以包括阿拉伯数字字符和英文字母字符，如字符集可以为：[0，1，2，3，4，5，6，7，…，a，b，c，…]。

S13，获取响应数据做敏感筛选，得到至少一条敏感数据作为待处理数据；页面渲染开始，浏览器将Ajax异步返回的数据做敏感筛选，得到若干条敏感数据，针对每一条敏感数据依次执行后续渲染处理。

S14，从标签库中随机选择一个标签M；其中，随机选择标签可以使用随机数下标的方式进行选择，也可以采用其它已知的方式进行选取，在此不做限制。该标签M用于为后续基于随机标签生成渲染文本做标准。

S15，获取待处理数据的文本数据长度，按照第一预设比例进行分割得到第一目标数据和第二目标数据；其中，第一预设比例可以是1:1的均分比例，浏览器从CSS伪类:before和:after中随机选取一个，如果选择:before伪类，则按照均分的形式截取要渲染的待处理数据的前半部分T1作为第一目标数据，剩余的后半部分为第二目标数据；如果选择:after伪类，则按照均分的形式截取要渲染的后半部分T3作为第一目标数据，剩余的前半部分作为第二目标数据。

S16，从字符集中随机选择多个字符形成设置长度的字符串s；其中，从字符集中选取字符时可以重复选取，从而所选取的字符数量可以小于字符串的长度。该字符串的设置长度的大小不限，以设置长度为10为例，字符串s可以为adz12hda3k。该字符串s可以用作class名字，用于展示某一标签的样式。

S17，将字符串和第一目标数据拼接组成CSS伪类样式，并将该伪类样式插入到HTML中；这里，基于随机字符串和伪类样式的第一渲染策略对第一目标数据进行渲染。

S18，将第二目标数据按照第二预设比例分割形成第三目标数据和第四目标数据；其中，第二预设比例也可以是1:1的均分比例，浏览器从CSS伪类:before和:after中随机选取一个，如果选择:before伪类，将第二目标数据按照均分的形式将截取的第二目标数据的前半部分T5作为第三目标数据，将未截取的后半部分T6作为第四目标数据。反之，如果选择:after伪类，则按照均分的形式截取要渲染的后半部分T6作为第三目标数据，剩余的前半部分T5作为第四目标数据。

S19，获取待处理数据的字体大小和字体颜色，使用Canvas按照所述字体的大小和字体颜色将第三目标数据画入图形内，生成带有文字的图片P，并将图片P与第四目标数据结合后插入标签M中，并将S16中的s作为标签M的class属性写入标签中。

S20，将标签M插入HTML中；确定是否还存在待处理数据，若是，则返回步骤S14，反复循环，直至全部待处理数据渲染完毕。

S21，完成页面渲染，并展示在浏览器。

本申请上述实施例所提供的反爬虫的数据处理方法，通过将待处理数据按照预设比例进行分割得到多个目标数据，将所述多个目标数据分别根据不同的渲染策略进行渲染后再展示，具体的，将待处理数据分割为第一目标数据和第二目标数据，第二目标数据进一步分割为第三目标数据和第四目标数据，将随机生成的字符串和第一目标数据形成伪类样式插入HTML中，将第三目标数据转换为图片后再和第四目标数据拼接插入随机标签中，并将随机生成的字符串作为随机标签的class标签属性，如此，将待处理数据分割成三种形式进行渲染展示，使得对同一待处理数据所采用的渲染策略具有非固定性和多样性，从而大大增加了破解的难度，可以有效降低爬虫在网页的行为能力，不仅可以确保数据的正常展示，而且基本可以达到百分之百对数据的抓取，可以有效保护网页数据。

本发明实施例的另一方面，请参阅图4，还提供一种浏览器，该浏览器包括数据获取模块11，用于根据针对目标页面的数据请求，接收返回的响应数据，获取所述响应数据中的待处理数据；渲染模块13，用于将所述待处理数据按照预设比例进行分割得到多个目标数据，将所述多个目标数据分别根据不同的渲染策略进行渲染；展示模块15，用于展示渲染完成后的所述目标页面。

所述渲染模块13包括截取单元131，用于将所述待处理数据按照第一预设比例进行分割得到第一目标数据和第二目标数据；第一渲染单元132，用于获取随机生成的字符串，根据所述字符串和所述第一目标数据形成伪类样式，将所述伪类样式插入所述目标页面中；第二渲染单元133，用于随机选取目的标签，根据所述第二目标数据形成所述目的标签的内容，将所述目的标签插入所述目标页面中。

所述浏览器还包括构建模块10，用于在所述获取随机生成的字符串之前，构建包含多个待选字符的字符集，所述待选字符包括如下至少一种：数字字符、字母字符、符号字符。所述第一渲染单元132，具体用于从所述字符集中随机选取至少一待选字符，根据所述至少一待选字符生成设置长度的随机的字符串。

所述构建模块10，还用于在所述随机选取目的标签之前，构建包含多个待选标签的标签库，所述待选标签包括超文本标记语言HTML标签；所述第二渲染单元133，具体用于从所述标签库中随机选取其中之一待选标签作为目的标签。

所述第二渲染单元133，具体用于获取所述待处理数据的字体属性，调用绘制图像应用接口根据所述第二目标数据和所述字体属性生成文字图片，根据所述文字图片和所述第二目标数据形成所述目的标签的内容。

所述第二渲染单元133，具体用于将所述第二目标数据按照第二预设比例分割得到第三目标数据和第四目标数据，调用绘制图像应用接口根据所述字体属性将所述第四目标数据生成文字图片，将所述文字图片和所述第三目标数据结合插入所述目的标签中，将所述字符串作为属性写入所述目的标签中。

所述数据获取模块11，具体用于根据设置的敏感数据筛选策略对所述响应数据进行筛选，确定所述响应数据中包含敏感数据时，将所述敏感数据作为待处理数据。

所述数据获取模块11，具体用于根据预先构建的敏感数据特征库对所述响应数据进行匹配，根据匹配的结果确定敏感数据。

所述浏览器还包括判断模块14，用于在所述展示渲染完成后的所述目标页面之前，确定所述目标页面的响应数据中是否还包括待处理数据；若是，则返回执行所述将所述待处理数据按照预设比例进行分割得到多个目标数据，将所述多个目标数据分别根据不同的渲染策略进行渲染的步骤。

需要说明的是：上述实施例提供的浏览器在实现反爬虫的数据处理方法时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述步骤分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。需要说明的是，本发明实施例提供的浏览器与反爬虫的数据处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本发明实施例还提供了一种计算机设备，该计算机设备包括处理器1101以及用于存储能够在处理器1101上运行的可执行指令的存储器1104，其中，所述处理器1101用于运行所述可执行指令时，执行本申请任一实施例所提供的反爬虫的数据处理方法的步骤。

这里，存储器1104能够存储可执行指令以支持计算机设备的操作，这些可执行指令的示例包括：操作系统和应用程序，其中，操作系统包含各种系统程序和驱动程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含用于实现本申请实施例所提供的反爬虫的数据处理方法的程序。该计算机设备还可以包括至少一个网络接口1102，其中，计算机设备的各个组件通过系统总线1103耦合连接。总线系统1103用于实现这些组件之间的连接通信。总线系统1103除包括数据总线之外，还包括电源总线、控制总线和状态信号总线，本申请实施例统一称为总线系统1103。

处理器1101可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

处理器1101和存储器1104并非指代对应的数量为一个，而是可以为一个或者多个。该计算机设备可以是指手机，个人计算机、服务器等能够安装浏览器应用的智能设备。

本发明实施例还提供了一种存储介质，例如包括存储有可执行指令的存储器，该可执行指令可以由处理器执行，以完成本申请任一实施例所提供的反爬虫的数据处理方法的步骤。该存储介质可以是FRAM、ROM、PROM、EPRO M、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种反爬虫的数据处理方法，应用于浏览器，其特征在于，包括：

根据针对目标页面的数据请求，接收返回的响应数据，获取所述响应数据中的待处理数据；

将所述待处理数据按照预设比例进行分割得到多个目标数据，将所述多个目标数据分别根据不同的渲染策略进行渲染；

展示渲染完成后的所述目标页面。

2.如权利要求1所述的方法，其特征在于，所述将所述待处理数据按照预设比例进行分割得到多个目标数据，将所述多个目标数据分别根据不同渲染策略进行渲染，包括：

将所述待处理数据按照第一预设比例进行分割得到第一目标数据和第二目标数据；

获取随机生成的字符串，根据所述字符串和所述第一目标数据形成伪类样式，将所述伪类样式插入所述目标页面中；

随机选取目的标签，根据所述第二目标数据形成所述目的标签的内容，将所述目的标签插入所述目标页面中。

3.如权利要求2所述的方法，其特征在于，所述获取随机生成的字符串之前，包括：构建包含多个待选字符的字符集，所述待选字符包括如下至少一种：数字字符、字母字符、符号字符；

4.如权利要求2所述的方法，其特征在于，所述随机选取目的标签之前，包括：

构建包含多个待选标签的标签库，所述待选标签包括超文本标记语言HT ML标签；

5.如权利要求2所述的方法，其特征在于，所述根据所述第二目标数据形成所述目的标签的内容，包括：

6.如权利要求5所述的方法，其特征在于，所述调用绘制图像应用接口根据所述第二目标数据和所述字体属性生成文字图片，根据所述文字图片和所述第二目标数据形成所述目的标签的内容，包括：

7.如权利要求1所述的方法，其特征在于，所述获取所述响应数据中的待处理数据，包括：

8.如权利要求7所述的方法，其特征在于，所述根据设置的敏感数据筛选策略对所述响应数据进行筛选，包括：

9.如权利要求1所述的方法，其特征在于，所述展示渲染完成后的所述目标页面之前，还包括：

确定所述目标页面的响应数据中是否还包括待处理数据；

10.一种浏览器，其特征在于，包括：

数据获取模块，用于根据针对目标页面的数据请求，接收返回的响应数据，获取所述响应数据中的待处理数据；

渲染模块，用于将所述待处理数据按照预设比例进行分割得到多个目标数据，将所述多个目标数据分别根据不同的渲染策略进行渲染；

展示模块，用于展示渲染完成后的所述目标页面。

11.如权利要求10所述的浏览器，其特征在于，所述渲染模块包括：

截取单元，用于将所述待处理数据按照第一预设比例进行分割得到第一目标数据和第二目标数据；

第一渲染单元，用于获取随机生成的字符串，根据所述字符串和所述第一目标数据形成伪类样式，将所述伪类样式插入所述目标页面中；

第二渲染单元，用于随机选取目的标签，根据所述第二目标数据形成所述目的标签的内容，将所述目的标签插入所述目标页面中。

12.如权利要求11所述的浏览器，其特征在于，还包括构建模块，用于在所述获取随机生成的字符串之前，构建包含多个待选字符的字符集，所述待选字符包括如下至少一种：数字字符、字母字符、符号字符；

所述第一渲染单元，具体用于从所述字符集中随机选取至少一待选字符，根据所述至少一待选字符生成设置长度的随机的字符串。

13.如权利要求12所述的浏览器，其特征在于，所述构建模块还用于构建包含多个待选标签的标签库，所述待选标签包括超文本标记语言HTML标签；

所述第二渲染单元，具体用于从所述标签库中随机选取其中之一待选标签作为目的标签。

14.如权利要求11所述的浏览器，其特征在于，所述第二渲染单元，具体用于获取所述待处理数据的字体属性，调用绘制图像应用接口根据所述第二目标数据和所述字体属性生成文字图片，根据所述文字图片和所述第二目标数据形成所述目的标签的内容。

15.如权利要求14所述的浏览器，其特征在于，所述第二渲染单元，具体用于将所述第二目标数据按照第二预设比例分割得到第三目标数据和第四目标数据，调用绘制图像应用接口根据所述字体属性将所述第四目标数据生成文字图片，将所述文字图片和所述第三目标数据结合插入所述目的标签中，将所述字符串作为属性写入所述目的标签中。

16.如权利要求10所述的浏览器，其特征在于，所述数据获取模块，具体用于根据设置的敏感数据筛选策略对所述响应数据进行筛选，确定所述响应数据中包含敏感数据时，将所述敏感数据作为待处理数据。

17.如权利要求16所述的浏览器，其特征在于，所述数据获取模块，具体用于根据预先构建的敏感数据特征库对所述响应数据进行匹配，根据匹配的结果确定敏感数据。

18.如权利要求10所述的浏览器，其特征在于，还包括判断模块，用于在所述展示渲染完成后的所述目标页面之前，确定所述目标页面的响应数据中是否还包括待处理数据；若是，则返回执行所述将所述待处理数据按照预设比例进行分割得到多个目标数据，将所述多个目标数据分别根据不同的渲染策略进行渲染的步骤。

19.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器用于存储可执行指令；所述处理器用于执行所述存储器中存储的可执行指令，实现如权利要求1至9中任一项所述的反爬虫的数据处理方法。

20.一种存储介质，其特征在于，存储有可执行指令，当所述可执行指令被执行时，用于引起处理器执行如权利要求1至9中任一项所述的反爬虫的数据处理方法。