CN110166465B - 访问请求的处理方法、装置、服务器及存储介质 - Google Patents
访问请求的处理方法、装置、服务器及存储介质 Download PDFInfo
- Publication number
- CN110166465B CN110166465B CN201910447571.2A CN201910447571A CN110166465B CN 110166465 B CN110166465 B CN 110166465B CN 201910447571 A CN201910447571 A CN 201910447571A CN 110166465 B CN110166465 B CN 110166465B
- Authority
- CN
- China
- Prior art keywords
- mapping
- mapping rule
- folder
- type
- font
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/20—Network architectures or network communication protocols for network security for managing network security; network security policies in general
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/60—Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本公开关于一种访问请求的处理方法、装置、服务器及存储介质,涉及互联网技术领域,该方法包括:接收终端对网页的访问请求;获取映射规则和映射规则对应的至少一个字体文件,映射规则指示字符和编码的对照关系,多个映射规则对应于相同文件名的字体文件;基于映射规则将网页的第一网页内容中的字符映射为对应的编码,得到第二网页内容;将映射规则对应的至少一个字体文件和第二网页内容发送至终端。服务器在将第一网页中的字符替换为编码时,采用该服务器所特有的映射规则,在向终端发送映射后的网页内容时,向终端发送了具有迷惑性的字体文件,提高了爬虫获取真实网页内容的难度,从而提高了服务器的安全性和稳定性。
Description
技术领域
本公开涉及互联网技术领域,尤其涉及一种访问请求的处理方法、装置、服务器及存储介质。
背景技术
随着互联网技术的不断发展,互联网为我们提供越来越多的信息。而爬虫是一段自动抓取互联网信息的程序,一些不法分子通过爬虫恶意爬取大量的网页内容,通过倒卖这些网页内容进行非法牟利,从而侵害他人权益,因此,如何对网页的访问请求进行控制,以避免恶意访问,是目前的研究热点。
相关技术中,对访问请求的一般处理方法可以是:当服务器在短时间内接收到某个IP(Internet Protocol,互联网协议)的多个访问请求时,则确定该IP对应的终端正在通过爬虫获取网页内容,则可以禁止该IP访问服务器,从而达到避免恶意访问的目的。
但是,由于正常用户的终端有时也会在短时间内发送多个访问请求,因此这种处理方式会造成正常用户终端的IP被封,从而该正常用户终端无法访问网页。另外,被禁IP对应的终端可以通过IP代理软件来更换IP,从而继续通过爬虫爬取网页内容,因此,如何有效的阻挡恶意访问,提高服务器的安全性和稳定性,成为当前急需解决的技术问题。
发明内容
本公开提供一种访问请求的处理方法、装置、服务器及存储介质,以至少解决相关技术中爬虫恶意获取网页内容,影响服务器的安全性和稳定性的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种访问请求的处理方法,包括接收终端对网页的访问请求;
获取映射规则和所述映射规则对应的至少一个字体文件,所述映射规则指示字符和编码的对照关系,多个映射规则对应于相同文件名的字体文件;
基于所述映射规则将所述网页的第一网页内容中的字符映射为对应的编码,得到第二网页内容;
将所述映射规则对应的至少一个字体文件和所述第二网页内容发送至所述终端,所述至少一个字体文件用于将所述第二网页内容还原为所述第一网页内容。
在一种可能实现方式中,所述获取映射规则和所述映射规则对应的至少一个字体文件,包括下述任一步骤:
基于所述多个映射规则中的任一映射规则,确定所述任一映射规则对应的文件夹,不同文件夹中所包含的至少一个字体文件的文件名相同,获取所述文件夹中的所述至少一个字体文件;
基于多个文件夹中的任一文件夹,获取所述任一文件夹中的至少一个字体文件,从所述多个映射规则中获取所述任一文件夹对应的映射规则。
在一种可能实现方式中,在所述接收终端的针对网页的访问请求之前,所述方法还包括:
将所述多个映射规则存储为数组形式,不同映射规则的数组下标不同;
基于所述多个映射规则的数组下标,确定所述多个文件夹的名称。
在一种可能实现方式中,所述方法还包括:
每隔预设时间间隔,对所述多个映射规则进行更新;
基于更新后的多个映射规则,更新所述多个映射规则对应的多个字体文件。
在一种可能实现方式中,在所述接收终端的针对网页的访问请求之前,所述方法还包括:
确定字体编码库中字符所属的类型;
将至少一个相同类型的字符和所述至少一个相同类型的字符对应的编码的对照关系进行交叉打乱;
基于交叉打乱后的字体编码库中字符和编码的对照关系,生成一个映射规则。
在一种可能实现方式中,所述获取映射规则和所述映射规则对应的至少一个字体文件,包括下述任一步骤:
基于所述第一网页内容中不同字符类型的占比,从所述多个映射规则中确定字符类型占比符合目标条件的映射规则,获取所述映射规则对应的至少一个字体文件;
基于所述第一网页内容中不同字符类型的占比,从多个文件夹中确定字符类型占比符合目标条件的文件夹,获取所述文件夹中的至少一个字体文件,从所述多个映射规则中获取所述文件夹对应的映射规则。
在一种可能实现方式中,所述从所述多个映射规则中确定字符类型占比符合目标条件的映射规则,包括:
在一个类型的字符占比大于除所述类型之外的其他任一类型的字符占比时,从所述类型的对应的至少一个映射规则中,确定一个映射规则;
所述从多个文件夹中确定字符类型占比符合目标条件的文件夹,包括:
在一个类型的字符占比大于除所述类型之外的其他任一类型的字符占比时,从所述占比类型对应的至少一个文件夹中,确定一个文件夹。
在一种可能实现方式中,在所述接收终端对网页的访问请求之后,所述方法还包括:
获取所述第一网页内容;
确定所述第一网页内容中的字符在所述第一网页内容中的占比;
若所述字符的占比超过目标占比阈值,则执行所述基于多个映射规则中的任一映射规则,将所述网页的第一网页内容中的字符映射为对应的编码的步骤。
在一种可能实现方式中,所述接收终端的针对网页的访问请求之后,所述方法还包括下述任一步骤:
获取所述访问请求中的随机数,若所述随机数与所述终端发送的上一个访问请求中的数值信息不同,则将所述至少一个字体文件发送至所述终端;
获取所述访问请求中的时间戳,若所述时间戳与所述终端发送的上一个访问请求中的数值信息不同,则将所述至少一个字体文件发送至所述终端。
根据本公开实施例的第二方面,提供一种访问请求的处理装置,包括:
接收单元,被配置为执行接收终端对网页的访问请求;
第一获取单元,被配置为执行获取映射规则和所述映射规则对应的至少一个字体文件,所述映射规则指示字符和编码的对照关系,多个映射规则对应于相同文件名的字体文件;
映射单元,被配置为执行基于所述映射规则将所述网页的第一网页内容中的字符映射为对应的编码,得到第二网页内容;
发送单元,被配置为执行将所述映射规则对应的至少一个字体文件和所述第二网页内容发送至所述终端,所述至少一个字体文件用于将所述第二网页内容还原为所述第一网页内容。
在一种可能实现方式中,所述第一获取单元被配置为执行下述任一项:
基于所述多个映射规则中的任一映射规则,确定所述任一映射规则对应的文件夹,不同文件夹中所包含的至少一个字体文件的文件名相同,获取所述文件夹中的所述至少一个字体文件;
基于多个文件夹中的任一文件夹,获取所述任一文件夹中的至少一个字体文件,从所述多个映射规则中获取所述任一文件夹对应的映射规则。
在一种可能实现方式中,所述装置还包括:
存储单元,被配置为执行将多个映射规则存储为数组形式,不同映射规则的数组下标不同;
第一确定单元,被配置为执行基于所述多个映射规则的数组下标,确定多个文件夹的名称。
在一种可能实现方式中,所述装置还包括:
更新单元,被配置为执行每隔预设时间间隔,对所述多个映射规则进行更新;
所述更新单元,还被配置为执行基于更新后的多个映射规则,更新所述多个映射规则对应的多个字体文件。
在一种可能实现方式中,所述装置还包括:
第二确定单元,被配置为执行确定字体编码库中字符所属的类型;
交叉打乱单元,被配置为执行将至少一个相同类型的字符和所述至少一个相同类型的字符对应的编码的对照关系进行交叉打乱;
生成单元,被配置为执行基于交叉打乱后的字体编码库中字符和编码的对照关系,生成一个映射规则。
在一种可能实现方式中,所述第一获取单元被配置为执行下述任一项:
基于所述第一网页内容中不同字符类型的占比,从所述多个映射规则中确定字符类型占比符合目标条件的映射规则,获取所述映射规则对应的至少一个字体文件;
基于所述第一网页内容中不同字符类型的占比,从多个文件夹中确定字符类型占比符合目标条件的文件夹,获取所述文件夹中的至少一个字体文件,从所述多个映射规则中获取所述文件夹对应的映射规则。
在一种可能实现方式中,所述第一获取单元还被配置为执行下述任一项:
在一个类型的字符占比大于除所述类型之外的其他任一类型的字符占比时,从所述类型的对应的至少一个映射规则中,确定一个映射规则;
在一个类型的字符占比大于除所述类型之外的其他任一类型的字符占比时,从所述占比类型对应的至少一个文件夹中,确定一个文件夹。
在一种可能实现方式中,所述装置还包括:
第二获取单元,被配置为执行获取所述第一网页内容;
第三确定单元,被配置为执行确定所述第一网页内容中的字符在所述第一网页内容中的占比;
执行单元,被配置为执行若所述字符的占比超过目标占比阈值,则执行所述基于多个映射规则中的任一映射规则,将所述网页的第一网页内容中的字符映射为对应的编码的步骤。
在一种可能实现方式中,所述接收单元还被配置为执行下述任一步骤:
获取所述访问请求中的随机数,若所述随机数与所述终端发送的上一个访问请求中的数值信息不同,则将所述至少一个字体文件发送至所述终端;
获取所述访问请求中的时间戳,若所述时间戳与所述终端发送的上一个访问请求中的数值信息不同,则将所述至少一个字体文件发送至所述终端。
根据本公开实施例的第三方面,提供一种服务器,包括:
一个或多个处理器;
用于存储所述一个或多个处理器可执行指令的一个或多个存储器;
其中,所述一个或多个处理器被配置为执行上述第一方面任一项所述的访问请求的处理方法。
根据本公开实施例的第四方面,提供了一种计算机可读存储介质,当所述存储介质中的指令由服务器的处理器执行时,使得服务器能够执行上述第一方面任一项所述的访问请求的处理方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
本公开实施例提供的访问请求的处理方法、装置、服务器及存储介质,由于服务器在将第一网页中的字符替换为编码时,采用的该服务器所特有的映射规则,并在向终端发送映射后的网页内容的同时,还向终端发送了具有迷惑性的字体文件,响应每个访问请求时服务器所发送的字体文件的文件名均相同,因此,对于机器来说,是无法基于相同的文件名来进行反向推导,也就不能够还原真实的网页内容,提高了爬虫获取真实网页内容的难度,能够达到有效的阻挡恶意访问的目的,提高了服务器的安全性和稳定性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种访问请求的处理方法的流程图;
图2是根据一示例性实施例示出的一种访问请求的处理方法的流程图;
图3是根据一示例性实施例示出的一种字符和编码的对照关系的示意图;
图4是根据一示例性实施例示出的一种交叉打乱后字符和编码的对照关系的示意图;
图5是根据一示例性实施例示出的另一种交叉打乱后字符和编码的对照关系的示意图;
图6是根据一示例性实施例示出的一种字体文件的示意图;
图7是根据一示例性实施例示出的另一种字体文件的示意图;
图8是根据一示例性实施例示出的一种访问请求的处理方法的流程图;
图9是根据一示例性实施例示出的一种访问请求的处理装置的框图;
图10是根据一示例性实施例示出的一种服务器的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种访问请求的处理方法的流程图,如图1所示,该访问请求的处理方法用于服务器中,包括以下步骤:
在步骤S11中,服务器接收终端对网页的访问请求。
在步骤S12中,服务器获取映射规则和该映射规则对应的至少一个字体文件,映射规则指示字符和编码的对照关系,多个映射规则对应于相同文件名的字体文件。
在步骤S13中,服务器基于映射规则将网页的第一网页内容中的字符映射为对应的编码,得到第二网页内容。
在步骤S14中,服务器将映射规则对应的至少一个字体文件和第二网页内容发送至终端,至少一个字体文件用于将第二网页内容还原为第一网页内容。
在一种可能实现方式中,该获取映射规则和该映射规则对应的至少一个字体文件,包括下述任一步骤:
基于该多个映射规则中的任一映射规则,确定该任一映射规则对应的文件夹,不同文件夹中所包含的至少一个字体文件的文件名相同,获取该文件夹中的该至少一个字体文件;
基于多个文件夹中的任一文件夹,获取该任一文件夹中的至少一个字体文件,从该多个映射规则中获取该任一文件夹对应的映射规则。
在一种可能实现方式中,在该接收终端的针对网页的访问请求之前,该方法还包括:
将多个映射规则存储为数组形式,不同映射规则的数组下标不同;
基于该多个映射规则的数组下标,确定多个文件夹的名称。
在一种可能实现方式中,每隔预设时间间隔,对该多个映射规则进行更新;
基于更新后的多个映射规则,更新该多个映射规则对应的多个字体文件。
在一种可能实现方式中,在该接收终端的针对网页的访问请求之前,该方法还包括:
确定字体编码中字符所属的类型;
将至少一个相同类型的字符和该至少一个相同类型的字符对应的编码进行交叉打乱;
基于交叉打乱后的字体编码中字符和编码的对照关系,生成一个映射规则。
在一种可能实现方式中,该获取映射规则和该映射规则对应的至少一个字体文件,包括下述任一步骤:
基于该第一网页内容中不同字符类型的占比,从该多个映射规则中确定字符类型占比符合目标条件的映射规则,获取该映射规则对应的至少一个字体文件;
基于该第一网页内容中不同字符类型的占比,从多个文件夹中确定字符类型占比符合目标条件的文件夹,获取该文件夹中的至少一个字体文件,从该多个映射规则中获取该文件夹对应的映射规则。
在一种可能实现方式中,该从该多个映射规则中确定字符类型占比符合目标条件的映射规则,包括:
在一个类型的字符占比大于除该类型之外的其他任一类型的字符占比时,从该类型的对应的至少一个映射规则中,确定一个映射规则;
该从多个文件夹中确定字符类型占比符合目标条件的文件夹,包括:
在一个类型的字符占比大于除该类型之外的其他任一类型的字符占比时,从该占比类型对应的至少一个文件夹中,确定一个文件夹。
在一种可能实现方式中,在该接收终端对网页的访问请求之后,该方法还包括:
获取该第一网页内容;
确定该第一网页内容中的字符在该第一网页内容中的占比;
若该字符的占比超过目标占比阈值,则执行该基于多个映射规则中的任一映射规则,将该网页的第一网页内容中的字符映射为对应的编码的步骤。
在一种可能实现方式中,该接收终端的针对网页的访问请求之后,该方法还包括下述任一步骤:
获取该访问请求中的随机数,若该随机数与该终端发送的上一个访问请求中的数值信息不同,则将该至少一个字体文件发送至该终端;
获取该访问请求中的时间戳,若该时间戳与该终端发送的上一个访问请求中的数值信息不同,则将该至少一个字体文件发送至该终端。
本公开实施例提供的访问请求的处理方法,由于服务器在将第一网页中的字符替换为编码时,采用的该服务器所特有的映射规则,并在向终端发送映射后的网页内容的同时,还向终端发送了具有迷惑性的字体文件,响应每个访问请求时服务器所发送的字体文件的文件名均相同,因此,对于机器来说,是无法基于相同的文件名来进行反向推导,也就不能够还原真实的网页内容,提高了爬虫获取真实网页内容的难度,能够达到有效的阻挡恶意访问的目的,提高了服务器的安全性和稳定性。
另外,终端若通过客户端浏览网页的话,客户端在接收到第二网页内容以及至少一个字体文件之后,会根据该至少一个字体文件,将第二网页内容还原为第一网页内容,因此,这种对网页内容的处理方式还不会影响用户正常浏览网页。
图2是根据一示例性实施例示出的一种访问请求的处理方法的流程图,如图2所示,该方法用于服务器中,包括以下步骤:
在步骤S21中,服务器将字体编码库中的字符和编码的对照关系交叉打乱,基于交叉打乱后的字体编码库中字符和编码的对照关系,生成多个映射规则。
其中,字体编码库中包括多个字符和字符对应的编码,字体编码库中的编码为将该编码所对应的字符以图像的形式显示在显示屏幕上的编码。该编码的表示形式可以为GBK、UTF-16、BIG5等任一种形式,本公开对该编码的形式不进行任何限定。
其中,字体编码库中包括所有字符和其对应的编码,字符和编码可以是对应存储的。在将字体编码库中的字符和编码的对照关系进行交叉打乱时,可以只交叉打乱其中一部分字符和编码的对照关系,也可以交叉打乱全部字符和编码的对照关系。
另外,字体编码库中的字符有多种类型,例如,阿拉伯数字、字母、汉字或者其他语言文字。将字体编码库中的字符和编码的对照关系进行交叉打乱时,具体的交叉打乱方式可以为:服务器确定字体编码库中字符所属的类型,将至少一个相同类型的字符和该至少一个相同类型的字符对应的编码的对照关系进行交叉打乱,基于交叉打乱后的字体编码库中字符和编码的对照关系,生成一个映射规则,该映射规则用于指示交叉打乱后的字体编码中字符和编码的对照关系。其中,基于字符的类型,将相同类型的字符和编码的对照关系进行交叉打乱时,可以只交叉打乱一种类型的字符和编码的对照关系,也可以交叉打乱多种类型的字符和编码的对照关系。将字体编码库中的字符和编码的对照关系进行多次交叉打乱,且每次交叉打乱操作均是服务器随机进行的,就可以获得多个映射规则。
例如,图3示出了字体编码库中的部分字符、部分编码,其中,1、2、3、4、A、B、C为字符,$31、$32、$33、$34、$501、$502、$503为编码,该字体编码库的部分内容中包括两种类型的字符,阿拉伯数字和英文字母,图3中的双向箭头指示该部分字符和该部分编码的对照关系。在将字体编码库中字符和编码的对照关系进行交叉打乱时,如图4所示,将4个阿拉伯数字对应的编码进行交叉互换,将3个英文字母对应的编码进行交叉互换。通过将相同类型的字符对应的编码进行交叉打乱,使得终端用户在通过爬虫获取到第二网页显示内容之后,在终端上会显示伪造的第三网页内容,而不会显示真实的网页内容,且仅观察第三网页内容很难发现异常,从而避免了终端用户手动对伪造的第三网页内容进行处理,从而保护了该网站的合法权益。
需要说明的是,服务器在交叉打乱字符和编码的对照关系时,还可以将不同类型的字符和编码的交叉关系进行打乱,如图5所示,字符的字体类型分别为阿拉伯数字和英文字母,将这两种类型的字符和编码的对照关系进行交叉打乱。
需要说明的是,在步骤S21中映射规则是通过服务器自动交叉打乱字符和编码的对照关系获得的,而打乱字符和编码的对照关系也可以由后台管理人员进行人为设置,通过人为设置可以指定字符与编码的对照关系,从而使得伪造的第三网页内容看起来更加真实,迷惑终端用户,尽可能地避免了用户终端手动对第三网页内容进行处理。
例如:在字体编码库中,喜的编码为$1320,欢的编码为$1351,讨的编码为$1478,厌的编码为$1579,通过人为设置,将喜的编码设置为$1478,将讨的编码设置为$1320,将欢的编码设置为$1579,将厌的编码设置为$1351。基于交叉打乱后编码的对照关系,生成相应的映射规则,当服务器采用该映射规则时,若第一网页内容为“我喜欢你”时,服务器生成的第二网页内容为“我$1478$1579你”,当终端通过爬虫获取到第二网页内容后,在终端上显示的第三网页内容为“我讨厌你”。该终端用户只要不打开字体文件将该字体文件内容与字体编码库中的内容进行核对,很难发现该网页内容是错误的。
需要说明的是,其中上述基于字符类型交叉打乱字符和编码的对照关系的实现方式为本公开实施例的一种可选实现方式,服务器在交叉打乱字符和编码的对照关系时,也可以不基于字符的类型,随机将字符和编码的对照关系进行交叉打乱,本公开实施例对打乱字符和编码的对照关系的具体实现方式不进行限定。
在步骤S22中,服务器将多个映射规则存储为数组形式,不同映射规则的数组下标不同。
其中,将多个映射规则存储为数组形式可以包括:在多个映射规则均获取完毕之后,将该多个映射规则存储为数组的形式,每个映射规则在数组中的位置可以不与映射规则的生成顺序相对应,也即是,在存储时可以为各个映射规则随机分配存储位置,例如,某个映射规则,为数组中的第一个数据,则该映射规则的数组下标为1;某个映射规则,为数组中的第二个数据,则该映射规则的数组下标为2,依次类推。
将多个映射规则存储为数组形式还可以是:每获取一个映射规则,将该映射规则存储到数组中,基于存储的先后顺序,映射规则对应不同的数组下标。例如,某个映射规则的数组下标为1,则该映射规则是第一个被存储到该数组的数据。
另外,由步骤S21可知,有些映射规则是基于将一种类型的字符和编码的对照关系进行交叉而生成的;有些映射规则是基于将多种类型的字符和编码的对照关系进行交叉而生成的。因此,可以基于映射规则所具体指示的对照关系,将映射规则在数组中分类存储,例如,将同一类型字符的映射规则存储在数组中相邻的位置,以方便读取。又例如,将同一类型字符的映射规则存储在数组中固定位置。
例如,有10个映射规则仅指示字符类型为阿拉伯数字的字符和编码的对照关系,则将这10个映射规则存储为数组中的前10个数据,该10个映射规则的下标对应1至10。
在步骤S23中,服务器基于该多个映射规则的数组下标,确定多个文件夹的名称。
在将多个映射规则存储为数组形式之后,可以基于多个映射规则的数目,建立相同数目的文件夹,并且按照映射规则的数组下标,为该多个文件夹命名。例如,映射规则有100个,映射规则的数组下标为1至100,则为100个文件夹命名时,可以命名为font1、font2……font100。其中,数组下标为1的映射规则对应文件名为font1的文件夹。
在步骤S24中,服务器在映射规则对应的文件夹中,生成该映射规则对应的至少一个字体文件。
其中,字体文件内显示有交叉打乱后的字符和编码,字符和编码可以按照对照关系来显示,另外,字符的格式可以是图片格式。如图6所示,字体文件中显示有10个字符,以及该10个字符对应的编码,通过将字符和编码对应显示,来指示编码和字符的对照关系。
另外,基于映射规则生成字体文件时,若该映射规则指示多种类型的字符和编码的对照关系,则可以基于每种类型的字符和编码的对照关系生成一个字体文件,将生成的多个字体文件存放在该映射规则的文件夹中,尽可能地保证了终端每次获取到的字体文件的文件大小是一致的,由于终端每次获取到的字体文件的文件名相同,文件大小也相同,进一步加大了区分不同字体文件的难度,从而提高用户终端获取真实网页的难度。
另外,多个映射规则对应于相同文件名的字体文件。具体的,当映射规则对应一个字体文件时,每个字体文件的文件名相同,例如每个字体文件的文件名为font.ttf。当映射规则对应多个字体文件时,该多个字体文件的文件名不同,但是不同映射规则对应的字体文件名是相同的。例如:映射规则1中对应的4个字体文件,文件名分别为font1.ttf、font2.ttf、font3.ttf、font4.ttf。映射规则2中对应的4个字体文件,文件名也分别为font1.ttf、font2.ttf、font3.ttf、font4.ttf。而当某些映射规则对应一个字体文件,某些映射规则对应多个字体文件时,可以将字体文件设置为font.ttf,当文件夹中有多个字体文件时,按照多个字体文件的数量,将其分别命名为font1.ttf、font2.ttf……fontn.ttf。
由于多个映射规则对应的字体文件的文件名相同,所以服务器每次根据不同的映射规则对第一网页内容进行处理,终端都会接收到相同名称的字体文件,使得终端用户无法根据字体文件的文件名来区分相同或不同的字体文件,即便终端用户在通过爬虫获取的字体文件并人为编写出映射规则后,也仅能对本次获取的网页内容使用,无法直接确定是否适合获取的其他网页内容,进一步提高了爬虫获取真实网页的难度,从提高了服务器的安全性和稳定性。
需要说明的是,不同客户端的环境不同,能够解析的字体文件的格式不同,该字体文件的格式可以为font.ttf、font.svg、font.eot、font.woff等,本公开对此不进行限定。
需要说明的是,在步骤S21中,服务器还可以在将字体编码库中的字符和编码的对照关系交叉打乱时,同时生成至少一个字体文件和映射规则,之后,将至少一个字体文件存储在文件夹中,将映射规则存储在该文件夹对应的数组位置中。
另外,服务器在存储字体文件时,是将至少一个字体文件存储在一个文件夹中,服务器可以按照每个文件夹包含的至少一个字体文件具体指示的对照关系,将文件夹分类存储,例如,将至少一个字体文件指示同一类型字符的文件夹存储在固定的位置,或者,存储在相邻的位置,方便后续获取到符合要求的文件夹。
其中,步骤S21至步骤S24可以为服务器在正式使用上述字体文件之前的准备工作,只要在步骤S25之前完成生成过程即可,而无需再每次接收到访问请求时重复进行。
在步骤S25中,服务器接收终端对网页的访问请求。
在任一终端的客户端中,当用户想要通过客户端浏览某一个网页时,可以通过点击操作,来触发对网页的访问请求,对于客户端中的任一网页来说,该页面可以具有唯一的网页标识,在一种可能实现方式中,访问请求携带网页标识,该网页标识可以为页面的ID(Identity,身份标识号码)或页面URL(Uniform Resoure Locator,统一资源定位器)等,本公开实施例对此不进行限定。
另外,当终端从服务器中获取的字体文件与终端本身存储的字体文件的文件名相同时,终端发送访问请求时,不会从服务器中获取到新的字体文件,而是使用本地存储的字体文件,因此,可以在访问请求中添加时间戳或者随机数,来获取新的字体文件,在一种可能实现方式中,获取访问请求中的随机数,若随机数与终端发送的上一个访问请求中的随机数不同,则将至少一个字体文件发送至终端。在另一种可能实现方式中,获取访问请求中的时间戳,若时间戳与终端发送的上一个访问请求中的时间戳不同,则将至少一个字体文件发送至终端。终端在接收到新的字体文件之后,可以将上次接收到的字体文件进行删除,使用本次接收到的新的字体文件。
在步骤S26中,服务器获取第一网页内容,基于该第一网页内容中不同字符类型的占比,从多个映射规则中确定字符类型占比符合目标条件的映射规则。
服务器基于访问请求中的网页标识,从数据库中获取相应网页的网页内容,该网页内容为第一网页内容。
其中,从多个映射规则中确定字符类型占比符合目标条件的映射规则的具体实现方式可以为:服务器在获取第一网页内容之后,确定该第一网页内容中不同字符类型的占比,在一个类型的字符占比大于除该类型之外的其他任一类型的字符占比时,从该类型的对应的至少一个映射规则中,确定一个映射规则,从而可以使得获取到的映射规则能够适用于网页内容中占比最高的字符类型,使得在减少映射所需计算量的同时能够达到最大化的混淆目的,提高对爬虫类程序的抵御能力。
其中,步骤S22中示出了一种将映射规则分类存储的方式,因此,在从该类型的对应的至少一个映射规则中,确定一个映射规则时,可以基于上述确定的类型以及映射规则的分类,确定多个与该类型相关的映射规则,从多个映射规则中选取一个映射规则。
例如,服务器在获取到第一网页内容之后,对第一网页内容进行检测,获取到第一网页内容中字符类型为阿拉伯数字的字符占比为17%,字符类型为汉字的字符占比53%,字符类型为英文字母的字符占比为30%,而数组中指示字符类型为汉字的字符和编码的对照关系的映射规则中,确定一个映射规则,对第一网页内容进行处理。
另外,从多个映射规则中确定字符类型占比符合目标条件的映射规则的具体实现方式还可以为:服务器在获取第一网页内容之后,确定该第一网页内容包括的至少一个字符类型,基于获取到的至少一个类型,从该至少一个字符类型对应的至少一个映射规则中,确定一个映射规则,从而达到最大化的混淆目的,提高对爬虫类程序的抵御能力。
例如,服务器在获取到第一网页内容之后,对第一网页内容进行检测,获取到第一网页内容中字符类型分别为阿拉伯数字、汉字、英文字母,则从数组中指示这三种字符类型的字符和编码的对照关系的映射规则中,确定一个映射法规则,对第一网页内容进行处理。
需要说明的是,服务器在从多个映射规则中确定一个映射规则时,服务器可以按照第一网页内容中不同字符类型的占比,来确定符合目标条件的映射规则;服务器还可以从多个映射规则中随机确定一个映射规则,本公开实施例对服务器选取映射规则的方式不进行限定。
需要说明的是,在一种可能实现方式中,服务器可以根据第一网页内容中字符的占比确定是否要基于映射规则对第一网页内容进行处理,具体的:服务器在获取到第一网页内容后,确定第一网页内容中字符的占比,当该占比小于目标占比阈值时,则直接将第一网页内容发送至终端,或者通过其他方式对第一网页内容进行处理。例如,服务器在获取到第一网页内容后,确定该第一网页内容中不包括字符,则不会执行获取映射规则,基于映射规则对第一网页内容进行处理的步骤。通过这种选择性的处理,可以使得一些爬取价值较低的网页可以不进行映射处理,大大减轻服务器的处理压力。
需要说明的是,上述通过占比选择映射规则仅是本公开实施例中一种可选实现方式,服务器在选择映射规则时,还可以基于其他条件进行选择,也还可以不基于任何条件,随机进行选择,本公开实施例对确定映射规则的方式不进行限定。
在步骤S27中,服务器基于该映射规则,将第一网页内容中的字符映射为对应的编码,得到第二网页内容。
其中,服务器基于该映射规则,将第一网页内容中的字符映射为对应的编码时,具体的实现方式可以为:在第一网页内容中查找与该映射规则对应的字符,基于映射规则,确定该字符对应的编码,将该字符映射为该编码,该第二网页内容中可以包括未被映射的字符以及经过映射得到的编码。例如,映射规则中指示了1和$39对应,9和$31对应,此时将第一网页内容中所有的1转换成$39,所有的9转换成$31。
在步骤S28中,基于该映射规则,确定该映射规则对应的文件夹,获取该文件夹中的至少一个字体文件,将至少一个字体文件和第二网页内容发送至终端。
由步骤S23可知,映射规则的下标和文件夹的名称存在关联关系,可以基于选择的映射规则的数组下标来确定该映射规则对应的文件夹。例如,当确定的映射规则的数组下标为1时,文件名为font1的文件夹即时该映射规则对应的文件夹,获取该文件夹中保存的全部字体文件,该全部字体文件可以为一个,也可以为多个。
当终端接收到服务器发送的至少一个字体文件和第二网页内容时,若终端用户在通过客户端浏览网页,则客户端可以利用CSS(Cascading Style Sheet,层叠样式表)和字体文件,将第二网页内容还原为第一网页内容。若终端是通过爬虫获取到至少一个字体文件和第二网页内容时,终端会基于终端默认的字符和编码的对照关系将第二网页内容中的编码进行映射,得到第三网页内容,该第三网页内容为虚假网页内容。其中,系统默认的字符和编码的对照关系,为字体编码库中字符和编码的对应关系,如图7所示。
本公开实施例提供的访问请求的处理方法,由于服务器在将第一网页中的字符替换为编码时,采用的该服务器所特有的映射规则,并在向终端发送映射后的网页内容的同时,还向终端发送了具有迷惑性的字体文件,响应每个访问请求时服务器所发送的字体文件的文件名均相同,因此,对于机器来说,是无法基于相同的文件名来进行反向推导,也就不能够还原真实的网页内容,提高了爬虫获取真实网页内容的难度,能够达到有效的阻挡恶意访问的目的,提高了服务器的安全性和稳定性。
另外,终端若通过客户端浏览网页的话,客户端在接收到第二网页内容以及至少一个字体文件之后,会根据该至少一个字体文件,将第二网页内容还原为第一网页内容,因此,这种对网页内容的处理方式还不会影响用户正常浏览网页。
需要说明的是,在步骤S26至S28中,是先确定映射规则,之后基于映射规则获取字体文件,而在一些实施例中,还可以是先确定字体文件,之后,获取该字体文件对应的映射规则。在一种可能实现方式中,服务器接收终端对网页的访问请求,基于多个文件夹中的任一文件夹,获取该任一文件夹中的至少一个字体文件,从多个映射规则中获取任一文件夹对应的映射规则。
其中,服务器在获取至少一个字体文件时,可以在多个文件夹中随机选取一个文件夹,获取该文件夹中的至少一个字体文件;还可以是按照目标条件来选取一个文件夹,获取该文件夹中的至少一个字体文件,具体的选取过程可以为:服务器获取第一网页内容,基于第一网页内容中不同字符类型的占比,从多个文件夹中确定字符类型占比符合目标条件的文件夹,获取该文件夹中的至少一个字体文件。例如,在一个类型的字符占比大于除该类型之外的其他任一类型的字符占比时,从占比类型对应的至少一个文件夹中,确定一个文件夹,获取该文件夹中的至少一个字体文件。
另外,按照目标条件来选取一个文件夹,获取该文件夹中的至少一个字体文件,具体的选取过程还可以为:服务器在获取第一网页内容之后,确定该第一网页内容包括的至少一个字符类型,基于获取到的至少一个类型,从该至少一个字符类型对应的文件夹中,确定一个文件夹,获取该文件夹中的至少一个字体文件。
在选定文件夹之后,可以从多个映射规则中确定该文件夹对应的映射规则,基于该映射规则,将第一网页内容中的部分字符映射为对应的编码,得到第二网页内容。
在步骤S29中,服务器每隔预设时间间隔,对多个映射规则进行更新,基于更新后的多个映射规则,服务器更新该多个映射规则对应的多个字体文件。
其中,对多个映射规则进行更新可以是,对于任一映射规则,重新交叉打乱该映射规则对应的字符和编码的对照关系,也可以是基于字体编码库,重新生成多个映射规则。
在一种可能实现方式中,对于任一映射规则,服务器重新交叉打乱该映射规则对应的字符和编码的对照关系,具体的,服务器可以在数组中对每一个映射规则进行更新处理,这样,某一个映射规则在更新后,所在数组中的位置不变,直接在该映射规则对应的文件夹中,将原有的至少一个字体文件删除,重新生成至少一个字体文件。这样映射规则的分类还有映射规则与文件夹的对应关系都可以保存下,减少了服务器的工作量。
在另一种可能实现方式中,服务器基于字体编码库,重新生成多个映射规则,在通过更新后的映射规则替换更新前的映射规则时,可以将更新前的映射规则以及映射规则对应的文件夹删除,基于步骤S22至S24重新生成数组。文件夹以及字体文件;还可以将更新前的映射规则替换为更新后的映射规则,基于更新后的映射规则的数组下标,确定该更新后的映射规则对应的文件夹,在该文件夹中,基于更新后的映射规则生成至少一个字体文件,将更新前的至少一个字体文件替换为更新后的至少一个字体文件。
综合上述步骤S21至S29可知,本公开实施例提供的访问请求处理方法如图8所示,服务器会将字体编码库的字符和编码的对照关系进行交叉打乱,并示出了多种交叉打乱方式,其中包括:交叉打乱阿拉伯数字与编码的对照关系、交叉打乱英文字母与编码的对照关系、交叉打乱汉字与编码的对照关系,以及综合打乱。其中综合打乱为将多种类型的字符和编码的对照关系交叉打乱。服务器在接收到终端发送的访问请求后,会确定一个映射规则,基于该映射规则将第一网页内容映射为第二网页内容,并确定相应的字体文件,将字体文件和第二网页内容发送至终端。终端会接收字体文件和第二网页内容,通过CSS样式和字体文件将第二网页内容还原为第一网页内容。另外,该方法还通过服务器不断更新映射规则,以及使字体文件的文件名相同,来提高爬虫获取真实网页内容的难度。
需要说明的是,步骤S29为可选步骤,可以基于服务器的实际安全性要求等来选择性执行。
若执行该步骤S29,则服务器通过定时更新映射规则,来生成新的字体文件,使得终端用户通过手动编写的映射规则失效,需要终端用户也不断地手动编写对应的映射规则,进一步提高了爬虫获取真实网页内容的难度,从而提高了服务器的安全性和稳定性。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
图9是根据一示例性实施例示出的一种访问请求的处理装置框图。参照图9,该装置包括接收单元901、第一获取单元902、映射单元903和发送单元904。
接收单元901,被配置为执行接收终端对网页的访问请求;
第一获取单元902,被配置为执行获取映射规则和该映射规则对应的至少一个字体文件,该映射规则指示字符和编码的对照关系,多个映射规则对应于相同文件名的字体文件;
映射单元903,被配置为执行基于该映射规则将该网页的第一网页内容中的字符映射为对应的编码,得到第二网页内容;
发送单元904,被配置为执行将该映射规则对应的至少一个字体文件和该第二网页内容发送至该终端,该至少一个字体文件用于将该第二网页内容还原为该第一网页内容。
在一种可能实现方式中,第一获取单元902被配置为执行下述任一项:
基于该多个映射规则中的任一映射规则,确定该任一映射规则对应的文件夹,不同文件夹中所包含的至少一个字体文件的文件名相同,获取该文件夹中的该至少一个字体文件;
基于多个文件夹中的任一文件夹,获取该任一文件夹中的至少一个字体文件,从该多个映射规则中获取该任一文件夹对应的映射规则。
在一种可能实现方式中,装置还包括:
存储单元,被配置为执行将多个映射规则存储为数组形式,不同映射规则的数组下标不同;
第一确定单元,被配置为执行基于多个映射规则的数组下标,确定多个文件夹的名称。
在一种可能实现方式中,装置还包括:
更新单元,被配置为执行每隔预设时间间隔,对多个映射规则进行更新;
更新单元,还被配置为执行基于更新后的多个映射规则,更新多个映射规则对应的多个字体文件。
在一种可能实现方式中,装置还包括:
第二确定单元,被配置为执行确定字体编码库中字符所属的类型;
交叉打乱单元,被配置为执行将至少一个相同类型的字符和至少一个相同类型的字符对应的编码的对照关系进行交叉打乱;
生成单元,被配置为执行基于交叉打乱后的字体编码库中字符和编码的对照关系,生成一个映射规则。
在一种可能实现方式中,第一获取单元902被配置为执行下述任一项:
基于该第一网页内容中不同字符类型的占比,从该多个映射规则中确定字符类型占比符合目标条件的映射规则,获取该映射规则对应的至少一个字体文件;
基于该第一网页内容中不同字符类型的占比,从多个文件夹中确定字符类型占比符合目标条件的文件夹,获取该文件夹中的至少一个字体文件,从该多个映射规则中获取该文件夹对应的映射规则。
在一种可能实现方式中,该第一获取单元902还被配置为执行下述任一项:
在一个类型的字符占比大于除该类型之外的其他任一类型的字符占比时,从该类型的对应的至少一个映射规则中,确定一个映射规则;
在一个类型的字符占比大于除该类型之外的其他任一类型的字符占比时,从该占比类型对应的至少一个文件夹中,确定一个文件夹。
在一种可能实现方式中,装置还包括:
第二获取单元,被配置为执行获取第一网页内容;
第三确定单元,被配置为执行确定第一网页内容中的字符在第一网页内容中的占比;
执行单元,被配置为执行若字符的占比超过目标占比阈值,则执行基于多个映射规则中的任一映射规则,将网页的第一网页内容中的字符映射为对应的编码的步骤。
在一种可能实现方式中,接收单元901还被配置为执行下述任一步骤:
获取访问请求中的随机数,若随机数与终端发送的上一个访问请求中的数值信息不同,则将至少一个字体文件发送至终端;
获取访问请求中的时间戳,若时间戳与终端发送的上一个访问请求中的数值信息不同,则将至少一个字体文件发送至终端。
本公开实施例提供的访问请求的处理装置,由于服务器在将第一网页中的字符替换为编码时,采用的该服务器所特有的映射规则,并在向终端发送映射后的网页内容的同时,还向终端发送了具有迷惑性的字体文件,响应每个访问请求时服务器所发送的字体文件的文件名均相同,因此,对于机器来说,是无法基于相同的文件名来进行反向推导,也就不能够还原真实的网页内容,提高了爬虫获取真实网页内容的难度,能够达到有效的阻挡恶意访问的目的,提高了服务器的安全性和稳定性。
另外,终端若通过客户端浏览网页的话,客户端在接收到第二网页内容以及至少一个字体文件之后,会根据该至少一个字体文件,将第二网页内容还原为第一网页内容,因此,这种对网页内容的处理方式还不会影响用户正常浏览网页。
需要说明的是:上述实施例提供的访问请求的处理装置在处理访问请求时,仅以上述各功能单元的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元完成,即将访问请求的处理装置的内部结构划分成不同的功能单元,以完成以上描述的全部或者部分功能。另外,上述实施例提供的访问请求的处理装置与访问请求的处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图10是根据一示例性实施例示出的一种服务器1000的框图。该服务器1000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)1001和一个或一个以上的存储器1002,其中,存储器1002中存储有至少一条指令,至少一条指令由处理器1001加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
服务器1000可以用于执行上述访问请求的处理方法中服务器所执行的步骤。
在示例性实施例中,还提供了一种计算机可读存储介质,当该存储介质中的指令由服务器的处理器执行时,使得服务器能够执行本公开实施例提供的访问请求的处理方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (18)
1.一种访问请求的处理方法,其特征在于,所述方法包括:
接收终端对网页的访问请求;
获取映射规则和所述映射规则对应的至少一个字体文件,所述映射规则指示字符和编码的对照关系,所述映射规则为多个映射规则中的一个映射规则,所述多个映射规则对应于相同文件名的字体文件;
基于所述映射规则将所述网页的第一网页内容中的字符映射为对应的编码,得到第二网页内容;
将所述映射规则对应的至少一个字体文件和所述第二网页内容发送至所述终端,所述至少一个字体文件用于将所述第二网页内容还原为所述第一网页内容;
其中,将所述映射规则对应的至少一个字体文件发送至所述终端的过程,包括以下述任一步骤:
获取所述访问请求中的随机数,若所述随机数与所述终端发送的上一个访问请求中的数值信息不同,则将所述至少一个字体文件发送至所述终端;
获取所述访问请求中的时间戳,若所述时间戳与所述终端发送的上一个访问请求中的数值信息不同,则将所述至少一个字体文件发送至所述终端。
2.根据权利要求1所述的方法,其特征在于,所述获取映射规则和所述映射规则对应的至少一个字体文件,包括下述任一步骤:
基于所述多个映射规则中的任一映射规则,确定所述任一映射规则对应的文件夹,不同文件夹中所包含的至少一个字体文件的文件名相同,获取所述文件夹中的所述至少一个字体文件;
基于多个文件夹中的任一文件夹,获取所述任一文件夹中的至少一个字体文件,从所述多个映射规则中获取所述任一文件夹对应的映射规则。
3.根据权利要求2所述的方法,其特征在于,在所述接收终端对网页的访问请求之前,所述方法还包括:
将所述多个映射规则存储为数组形式,不同映射规则的数组下标不同;
基于所述多个映射规则的数组下标,确定所述多个文件夹的名称。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
每隔预设时间间隔,对所述多个映射规则进行更新;
基于更新后的多个映射规则,更新所述多个映射规则对应的多个字体文件。
5.根据权利要求1至4任一项所述的方法,其特征在于,在所述接收终端对网页的访问请求之前,所述方法还包括:
确定字体编码库中字符所属的类型;
将至少一个相同类型的字符和所述至少一个相同类型的字符对应的编码的对照关系进行交叉打乱;
基于交叉打乱后的字体编码库中字符和编码的对照关系,生成一个映射规则。
6.根据权利要求5所述的方法,其特征在于,所述获取映射规则和所述映射规则对应的至少一个字体文件,包括下述任一步骤:
基于所述第一网页内容中不同字符类型的占比,从所述多个映射规则中确定字符类型占比符合目标条件的映射规则,获取所述映射规则对应的至少一个字体文件;
基于所述第一网页内容中不同字符类型的占比,从多个文件夹中确定字符类型占比符合目标条件的文件夹,获取所述文件夹中的至少一个字体文件,从所述多个映射规则中获取所述文件夹对应的映射规则。
7.根据权利要求6所述的方法,其特征在于,
所述从所述多个映射规则中确定字符类型占比符合目标条件的映射规则,包括:
在一个类型的字符占比大于除所述类型之外的其他任一类型的字符占比时,从所述类型的对应的至少一个映射规则中,确定一个映射规则;
所述从多个文件夹中确定字符类型占比符合目标条件的文件夹,包括:
在一个类型的字符占比大于除所述类型之外的其他任一类型的字符占比时,从所述占比类型对应的至少一个文件夹中,确定一个文件夹。
8.根据权利要求1所述的方法,其特征在于,在所述接收终端对网页的访问请求之后,所述方法还包括:
获取所述第一网页内容;
确定所述第一网页内容中的字符在所述第一网页内容中的占比;
若所述字符的占比超过目标占比阈值,则执行所述基于所述映射规则将所述网页的第一网页内容中的字符映射为对应的编码的步骤。
9.一种访问请求的处理装置,其特征在于,所述装置包括:
接收单元,被配置为执行接收终端对网页的访问请求;
第一获取单元,被配置为执行获取映射规则和所述映射规则对应的至少一个字体文件,所述映射规则指示字符和编码的对照关系,所述映射规则为多个映射规则中的一个映射规则,所述多个映射规则对应于相同文件名的字体文件;
映射单元,被配置为执行基于所述映射规则将所述网页的第一网页内容中的字符映射为对应的编码,得到第二网页内容;
发送单元,被配置为执行将所述映射规则对应的至少一个字体文件和所述第二网页内容发送至所述终端,所述至少一个字体文件用于将所述第二网页内容还原为所述第一网页内容;
所述装置还被配置为执行下述任一步骤:
获取所述访问请求中的随机数,若所述随机数与所述终端发送的上一个访问请求中的数值信息不同,则将所述至少一个字体文件发送至所述终端;
获取所述访问请求中的时间戳,若所述时间戳与所述终端发送的上一个访问请求中的数值信息不同,则将所述至少一个字体文件发送至所述终端。
10.根据权利要求9所述的装置,其特征在于,所述第一获取单元被配置为执行下述任一项:
基于所述多个映射规则中的任一映射规则,确定所述任一映射规则对应的文件夹,不同文件夹中所包含的至少一个字体文件的文件名相同,获取所述文件夹中的所述至少一个字体文件;
基于多个文件夹中的任一文件夹,获取所述任一文件夹中的至少一个字体文件,从所述多个映射规则中获取所述任一文件夹对应的映射规则。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
存储单元,被配置为执行将所述多个映射规则存储为数组形式,不同映射规则的数组下标不同;
第一确定单元,被配置为执行基于所述多个映射规则的数组下标,确定多个文件夹的名称。
12.根据权利要求9所述的装置,其特征在于,所述装置还包括:
更新单元,被配置为执行每隔预设时间间隔,对所述多个映射规则进行更新;
所述更新单元,还被配置为执行基于更新后的多个映射规则,更新所述多个映射规则对应的多个字体文件。
13.根据权利要求9至12任一项所述的装置,其特征在于,所述装置还包括:
第二确定单元,被配置为执行确定字体编码库中字符所属的类型;
交叉打乱单元,被配置为执行将至少一个相同类型的字符和所述至少一个相同类型的字符对应的编码的对照关系进行交叉打乱;
生成单元,被配置为执行基于交叉打乱后的字体编码库中字符和编码的对照关系,生成一个映射规则。
14.根据权利要求13所述的装置,其特征在于,所述第一获取单元被配置为执行下述任一项:
基于所述第一网页内容中不同字符类型的占比,从所述多个映射规则中确定字符类型占比符合目标条件的映射规则,获取所述映射规则对应的至少一个字体文件;
基于所述第一网页内容中不同字符类型的占比,从多个文件夹中确定字符类型占比符合目标条件的文件夹,获取所述文件夹中的至少一个字体文件,从所述多个映射规则中获取所述文件夹对应的映射规则。
15.根据权利要求14所述的装置,其特征在于,所述第一获取单元还被配置为执行下述任一项:
在一个类型的字符占比大于除所述类型之外的其他任一类型的字符占比时,从所述类型的对应的至少一个映射规则中,确定一个映射规则;
在一个类型的字符占比大于除所述类型之外的其他任一类型的字符占比时,从所述占比类型对应的至少一个文件夹中,确定一个文件夹。
16.根据权利要求9所述的装置,其特征在于,所述装置还包括:
第二获取单元,被配置为执行获取所述第一网页内容;
第三确定单元,被配置为执行确定所述第一网页内容中的字符在所述第一网页内容中的占比;
执行单元,被配置为执行若所述字符的占比超过目标占比阈值,则执行所述基于多个映射规则中的任一映射规则,将所述网页的第一网页内容中的字符映射为对应的编码的步骤。
17.一种服务器,其特征在于,包括:
一个或多个处理器;
用于存储所述一个或多个处理器可执行指令的一个或多个存储器;
其中,所述一个或多个处理器被配置为执行权利要求1至8中任一项所述的访问请求的处理方法。
18.一种计算机可读存储介质,当所述存储介质中的指令由服务器的处理器执行时,使得服务器能够执行如权利要求1至8中任一项所述的访问请求的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910447571.2A CN110166465B (zh) | 2019-05-27 | 2019-05-27 | 访问请求的处理方法、装置、服务器及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910447571.2A CN110166465B (zh) | 2019-05-27 | 2019-05-27 | 访问请求的处理方法、装置、服务器及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110166465A CN110166465A (zh) | 2019-08-23 |
CN110166465B true CN110166465B (zh) | 2022-01-25 |
Family
ID=67629054
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910447571.2A Active CN110166465B (zh) | 2019-05-27 | 2019-05-27 | 访问请求的处理方法、装置、服务器及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110166465B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674427B (zh) * | 2019-09-20 | 2022-04-22 | 北京达佳互联信息技术有限公司 | 响应网页访问请求的方法、装置、设备及存储介质 |
CN110826005B (zh) * | 2019-11-13 | 2022-12-16 | 北大方正集团有限公司 | 文件生成方法、装置、电子设备及存储介质 |
CN111008348A (zh) * | 2019-11-28 | 2020-04-14 | 盛业信息科技服务(深圳)有限公司 | 反爬虫方法、终端、服务器及计算机可读存储介质 |
CN111131282B (zh) * | 2019-12-27 | 2022-06-17 | 武汉极意网络科技有限公司 | 请求加密方法、装置、电子设备及存储介质 |
CN111291397A (zh) * | 2020-02-09 | 2020-06-16 | 成都神殿科技有限责任公司 | 一种网页数据防爬加密方法 |
CN113553601B (zh) * | 2020-04-23 | 2023-04-18 | 上海云盾信息技术有限公司 | 一种网页页面内容加密方法及设备 |
CN111539025B (zh) * | 2020-05-07 | 2021-02-26 | 北京五八信息技术有限公司 | 一种页面展示方法、装置、电子设备及存储介质 |
CN111723263B (zh) * | 2020-06-19 | 2024-04-05 | 北京同邦卓益科技有限公司 | 网页数据处理方法、装置、设备及存储介质 |
CN112084388B (zh) * | 2020-08-07 | 2024-04-30 | 广州力挚网络科技有限公司 | 一种数据加密方法、装置、电子设备及存储介质 |
CN112711692A (zh) * | 2021-01-13 | 2021-04-27 | 深圳前瞻资讯股份有限公司 | 网页端数据防抓取方法、系统及智能终端 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104618390A (zh) * | 2015-02-17 | 2015-05-13 | 北京趣拿信息技术有限公司 | 网站数据反馈方法、显示方法及系统、处理系统 |
CN107818108A (zh) * | 2016-09-13 | 2018-03-20 | 阿里巴巴集团控股有限公司 | 一种网页渲染方法、装置及系统 |
CN108449316A (zh) * | 2018-02-06 | 2018-08-24 | 麒麟合盛网络技术股份有限公司 | 一种反爬虫方法、服务器和客户端 |
CN109543454A (zh) * | 2019-01-25 | 2019-03-29 | 腾讯科技(深圳)有限公司 | 一种反爬虫方法及相关设备 |
CN109684843A (zh) * | 2018-12-25 | 2019-04-26 | 北京知道创宇信息技术有限公司 | 数据处理方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10387529B2 (en) * | 2017-02-16 | 2019-08-20 | International Businesss Machines Corporation | Paraphrasing text in a webpage |
-
2019
- 2019-05-27 CN CN201910447571.2A patent/CN110166465B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104618390A (zh) * | 2015-02-17 | 2015-05-13 | 北京趣拿信息技术有限公司 | 网站数据反馈方法、显示方法及系统、处理系统 |
CN107818108A (zh) * | 2016-09-13 | 2018-03-20 | 阿里巴巴集团控股有限公司 | 一种网页渲染方法、装置及系统 |
CN108449316A (zh) * | 2018-02-06 | 2018-08-24 | 麒麟合盛网络技术股份有限公司 | 一种反爬虫方法、服务器和客户端 |
CN109684843A (zh) * | 2018-12-25 | 2019-04-26 | 北京知道创宇信息技术有限公司 | 数据处理方法及装置 |
CN109543454A (zh) * | 2019-01-25 | 2019-03-29 | 腾讯科技(深圳)有限公司 | 一种反爬虫方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110166465A (zh) | 2019-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110166465B (zh) | 访问请求的处理方法、装置、服务器及存储介质 | |
US11132540B2 (en) | Ink file searching method, apparatus, and program | |
US10614249B2 (en) | Sanitization of content displayed by web-based applications | |
CN111008348A (zh) | 反爬虫方法、终端、服务器及计算机可读存储介质 | |
CN114329298B (zh) | 一种页面呈现方法、装置、电子设备及存储介质 | |
US20120079599A1 (en) | Non-transitory computer readable storage medium, access filtering device, and access filtering method | |
US20170300459A1 (en) | Card-type desktop implementation method and apparatus | |
US9747385B2 (en) | Compression of cascading style sheet files | |
US11409849B2 (en) | System, method and program for preventing unauthorized copies of webcomics and tracking replicated webcomics | |
KR100856916B1 (ko) | 관심사를 반영하여 추출한 정보 제공 방법 및 시스템 | |
CN111400575B (zh) | 用户标识生成方法、用户识别方法及其装置 | |
JP2006190253A (ja) | ウェブページのアスペクトを評価するための方法と装置 | |
CN112925928A (zh) | 数据处理方法及装置、电子设备及计算机可读存储介质 | |
CN111309578A (zh) | 标识对象的方法和装置 | |
CN111339548B (zh) | 反爬虫的数据处理方法、装置、计算机设备及存储介质 | |
US20100007919A1 (en) | Document management apparatus, document management method, and document management program | |
CN112134968A (zh) | 域名访问方法、装置、电子设备及存储介质 | |
CN111680247A (zh) | 网页字符串的本地调用方法、装置、设备及存储介质 | |
US10664538B1 (en) | Data security and data access auditing for network accessible content | |
US20120072492A1 (en) | Browsing information gathering system, browsing information gathering method, server, and recording medium | |
JP6550191B2 (ja) | 地図失効データに基づく偽造防止方法、装置、記憶媒体及びデバイス | |
US20230185961A1 (en) | Data blurring | |
CN103970799B (zh) | 一种电子文档的生成方法、装置和客户端 | |
CN115080154A (zh) | 页面显示方法、装置、存储介质及电子设备 | |
CN114518815A (zh) | 建筑图纸的显示方法、装置、设备、介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |