CN112182603B

CN112182603B - 反爬虫方法和装置

Info

Publication number: CN112182603B
Application number: CN202011004725.XA
Authority: CN
Inventors: 张驰; 简志枰; 张舜华; 任文涛; 汪楠; 吴兴; 谭汉坚
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2020-09-22
Filing date: 2020-09-22
Publication date: 2022-12-13
Anticipated expiration: 2040-09-22
Also published as: CN112182603A

Abstract

本发明公开了一种反爬虫方法和装置，涉及计算机技术领域。其中，该方法包括：基于第一密钥和第一加密算法对原始字体文件进行加密以得到目标字体文件；响应于客户端的数据获取请求，基于第二密钥和第二加密算法加密结果数据；其中，所述第二密钥为第一密钥的反向密钥，所述第二加密算法为第一加密算法的逆向加密算法；将加密后的结果数据和字体文件标识发送至所述客户端，以使所述客户端基于所述字体文件标识对应的目标字体文件展示所述加密后的结果数据。通过以上步骤，能够提高反爬虫的防御效果，提高爬虫程序的破解难度。

Description

反爬虫方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种反爬虫方法和装置。

背景技术

爬虫技术起源于早期互联网流行的全文搜索引擎抓取网页数据的下载系统。在互联网中，各式各样的网页可以看作一个异常巨大的有向图，这个图的节点有上百亿个。抓取程序从其中一个节点开始按照深度优先和广度优先相结合的方式遍历网络，直观的看就像一个或者多个蜘蛛在网络上爬行。在互联网发展的早期，爬虫程序可以让网站被搜索引擎或者导航网站收录，不仅有助于的网站推广，而且也能使用户更快地找到想要获取的信息，对网站拥有者和用户双方都非常有益。进而，产生了网络爬虫排除协议(Robots ExclusionProtocol，REP)这样的君子协定。REP协议规定在站点根目录下使用robots.txt文件来定义哪些页面信息可以被爬虫程序采集，哪些页面信息不允许被采集。

随着互联网和移动通讯技术的飞速发展，Web页面的载体从传统的PC端扩展到各种移动设备、甚至智能家电和其他物联网设备中。与此同时，爬虫的类型日益丰富，数量日益庞大，所采用的技术手段也越来越先进。

目前，非法网络爬虫出于商业目的采集未被REP协议许可的网页信息，甚至是非法采集用户的敏感个人信息，已经成为不容忽视的问题。非法网络爬虫的危害主要有如下几点：第一，网络爬虫的大量访问请求会占用Web服务器内存和CPU资源，给服务器带来巨大的负荷，导致服务器性能下降，影响正常用户的体验；第二，大量的爬虫请求会大量消耗服务器的网络带宽，带来额外的网络费用，增加了企业的网络带宽成本；第三，影响搜索引擎对用户访问行为的挖掘，进而影响搜索引擎网站数据排名，干扰了网站内部的数据采集或者用户行为的监控系统，扰乱了网站内部监控系统的准确性，对用户数据的进一步挖掘也失去了意义。

因此，对爬虫程序进行提前防御、识别出爬虫程序的访问请求，以及对来自爬虫程序的请求进行封禁、或者返回错误杂乱的信息干扰爬虫程序等各方面反爬虫手段的研究具有重大的现实意义。

在实现本发明的过程中，本发明的发明人发现：在现有技术中，往往采取单一的反爬虫措施，比如从运维、后端、或者前端等方面单独采取措施来反制爬虫程序。由于这些措施是从单方面考虑的，缺乏联动和配合，导致爬虫程序也能轻易地破解这些措施。

发明内容

有鉴于此，本发明提供了一种反爬虫方法和装置，能够提高反爬虫的防御效果，提高爬虫程序的破解难度。

为实现上述目的，根据本发明的第一个方面，提供了一种反爬虫方法。

本发明的反爬虫方法包括：基于第一密钥和第一加密算法对原始字体文件进行加密以得到目标字体文件；响应于客户端的数据获取请求，基于第二密钥和第二加密算法加密结果数据；其中，所述第二密钥为第一密钥的反向密钥，所述第二加密算法为第一加密算法的逆向加密算法；将加密后的结果数据和字体文件标识发送至所述客户端，以使所述客户端基于所述字体文件标识对应的目标字体文件展示所述加密后的结果数据。

可选地，所述方法还包括：在基于第一密钥和第一加密算法对原始字体文件进行加密以得到目标字体文件之前，通过伪随机数生成器生成所述第一密钥。

可选地，所述方法还包括：在所述基于第二密钥和第二加密算法加密结果数据之前，获取第一密钥，对所述第一密钥的组成元素的顺序进行反向以得到所述第二密钥。

可选地，所述第一加密算法为洗牌算法；所述基于第一密钥和第一加密算法对原始字体文件进行加密以得到目标字体文件包括：将原始字体文件解析成XML文件；基于第一密钥和所述洗牌算法对所述XML文件进行洗牌打乱；对洗牌打乱后的XML文件进行文件格式转换，以得到目标字体文件。

可选地，基于第一密钥和所述洗牌算法对所述XML文件进行洗牌打乱包括：基于第一密钥和所述洗牌算法对不同字符子标签下的名称属性值进行互换；或者；基于第一密钥和所述洗牌算法对不同字形子标签下的名称属性值进行互换。

可选地，所述基于第一密钥和第一加密算法对原始字体文件进行加密以得到目标字体文件还包括：对第一密钥进行哈希加密以得到消息摘要字符串，将所述消息摘要字符串作为所述目标字体文件的文件名后缀。

可选地，所述方法还包括：在客户端基于所述字体文件标识对应的目标字体文件展示所述加密后的结果数据之前，查询浏览器缓存，以从所述浏览器缓存中获取所述字体文件标识对应的目标字体文件；如果从浏览器缓存中获取不到所述字体文件标识对应的目标字体文件，从预设的引用资源地址获取所述字体文件标识对应的目标字体文件。

可选地，所述字体文件标识包括：对第一密钥进行哈希加密得到的消息摘要字符串。

可选地，所述方法还包括：定时对第一密钥进行更新，基于更新后的第一密钥和第一加密算法对原始字体文件进行重新加密以实现目标字体文件的更新。

可选地，所述目标字体文件为WOFF格式的字体文件。

为实现上述目的，根据本发明的第二个方面，提供了一种另一种反爬虫方法。

本发明的反爬虫方法包括：向服务端发送数据获取请求；接收所述服务端返回的加密后的结果数据和字体文件标识；其中，所述加密后的结果数据是服务端基于第二密钥和第二加密算法对结果数据进行加密得到的；获取所述字体文件标识对应的目标字体文件，并基于所述目标字体文件展示所述加密后的结果数据；其中，所述目标字体文件是服务端基于第一密钥和第一加密算法对原始字体文件进行加密得到的，所述第一密钥为第二密钥的反向密钥，所述第一加密算法为第二加密算法的逆向加密算法。

为实现上述目的，根据本发明的第三个方面，提供了一种反爬虫装置。

本发明的反爬虫装置包括：第一加密模块，用于基于第一密钥和第一加密算法对原始字体文件进行加密以得到目标字体文件；第二加密模块，用于响应于客户端的数据获取请求，基于第二密钥和第二加密算法加密结果数据；其中，所述第二密钥为第一密钥的反向密钥，所述第二加密算法为第一加密算法的逆向加密算法；发送模块，用于将加密后的结果数据和字体文件标识发送至所述客户端，以使所述客户端基于所述字体文件标识对应的目标字体文件展示所述加密后的结果数据。

为实现上述目的，根据本发明的第四个方面，提供了另一种反爬虫装置。

本发明的反爬虫装置包括：发送模块，用于向服务端发送数据获取请求；接收模块，用于接收所述服务端返回的加密后的结果数据和字体文件标识；其中，所述加密后的结果数据是服务端基于第二密钥和第二加密算法对结果数据进行加密得到的；展示模块，用于获取所述字体文件标识对应的目标字体文件，并基于所述目标字体文件展示所述加密后的结果数据；其中，所述目标字体文件是服务端基于第一密钥和第一加密算法对原始字体文件进行加密得到的，所述第一密钥为第二密钥的反向密钥，所述第一加密算法为第二加密算法的逆向加密算法。

为实现上述目的，根据本发明的第五个方面，提供了一种电子设备。

本发明的电子设备，包括：一个或多个处理器；以及，存储装置，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明的反爬虫方法。

为实现上述目的，根据本发明的第四个方面，提供了一种计算机可读介质。

本发明的计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明的反爬虫方法。

上述发明中的一个实施例具有如下优点或有益效果：通过基于第一密钥和第一加密算法对原始字体文件进行加密以得到目标字体文件，基于第二密钥和第二加密算法加密结果数据，并将加密后的结果数据和字体文件标识发送至所述客户端，以使所述客户端基于所述字体文件标识对应的目标字体文件展示所述加密后的结果数据，能够使浏览网页内容的用户看到所要展示的正确内容，而爬虫程序爬取到的则是使用第二加密算法加密后的乱序内容，从而提高了爬虫防御效果，降低了爬虫程序的破解难度。进一步，由于本发明实施例中对原始字体文件的加密、对结果数据的加密都是在服务端实现，加密所用的密钥和加密算法对客户端不透明，能够有效防止密钥及加密算法等信息的泄露，进一步提高了爬虫程序的破解难度。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明第一实施例的反爬虫方法的主要流程示意图；

图2是根据本发明第二实施例的反爬虫方法的主要流程示意图；

图3是根据本发明第三实施例的反爬虫方法的主要流程示意图；

图4是根据本发明第四实施例的反爬虫装置的主要模块示意图；

图5是根据本发明第五实施例的反爬虫装置的主要模块示意图；

图6是本发明实施例可以应用于其中的示例性系统架构图；

图7是适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要指出的是，在不影响本发明实施的情况下，本发明中的各个实施例以及实施例中的技术特征可以相互组合。

图1是根据本发明第一实施例的反爬虫方法的主要流程示意图。如图1所示，本发明实施例的反爬虫方法包括：

步骤S101：基于第一密钥和第一加密算法对原始字体文件进行加密以得到目标字体文件。

示例性地，第一密钥可由随机产生的多个数字组成。比如，第一密钥可以为{0,3,1,0}。

示例性地，第一加密算法可采用洗牌算法。比如，Fisher–Yates洗牌算法、或者Knuth-Durstenfeld洗牌算法等等。Fisher–Yates洗牌算法的算法思想是从原数组中随机抽取一个新的数组元素到新的数组中，然后在剩下的数组中重复上一步抽取新的数组元素到新的数组中，直到原数组清空，得到的新数组即为打乱顺序的。Knuth-Durstenfeld洗牌算法在Fisher–Yates洗牌算法基础上做出了改进，算法的时间复杂度从O(n2)提升到了O(n)，其核心思想是将数组中最后一个元素与前面n-1个元素中随机抽取的一个元素交换，然后倒数第二个元素和前面n-2个元素中随机抽取的一个元素交换，依次重复此操作直至结束。Knuth-Durste nfeld洗牌算法不仅提升了时间复杂度，还节省了空间，不用新的数组来保存打乱顺序的新的数组。

在一个可选示例中，当所述第一加密算法为洗牌算法时，所述基于第一密钥和第一加密算法对原始字体文件进行加密以得到目标字体文件包括：将原始字体文件解析成XML文件；基于第一密钥和所述洗牌算法对所述XML文件进行洗牌打乱；对洗牌打乱后的XML文件进行文件格式转换，以得到目标字体文件。其中，所述目标字体文件可采用多种字体格式。

需要指出的是，在不影响本发明实施的情况下，第一密钥除了采用随机数串之外，还可采用其他密钥构成形式，第一加密算法除了采用洗牌算法外，还可采用其他加密算法。具体实施时，只要基于加密得到的目标字体文件对加密后的结果数据的展示效果是正常的内容，而爬虫爬取的加密后的结果数据为混乱的内容，都能起到反爬虫的效果。

步骤S102：响应于客户端的数据获取请求，基于第二密钥和第二加密算法加密结果数据。

其中，所述第二密钥为第一密钥的反向密钥，所述第二加密算法为第一加密算法的逆向加密算法。在一个可选示例中，第一密钥为随机数串，第二密钥为将第一密钥的组成元素的顺序反向后得到的随机数串。比如，第一密钥为{0,3,1,0}，第二密钥为{0,1,3,0}。在一个可选示例中，第一加密算法为洗牌算法，第二加密算法为逆向洗牌算法。比如，第一加密算法为Knuth-Durstenfeld洗牌算法，第二加密算法为逆向Knuth-Durstenfeld洗牌算法。逆向Knuth-Durstenfeld洗牌算法的执行方向与原本Knuth-Durstenfeld洗牌算法的执行方向相反，例如原本Knut h-Durstenfeld洗牌算法开始是将数组最后面的元素与从前面的元素中随机选取的元素进行交换，逆向Knuth-Durstenfeld洗牌算法开始是将数组最前面的元素与从后面的元素中随机选取的元素进行交换。

在接收到客户端(比如Web客户端或者应用客户端)的数据获取请求后，服务端通过业务逻辑处理得到结果数据，然后基于第二密钥和第二加密算法对结果数据进行加密，以得到加密后的结果数据。其中，所述加密后的结果数据为加密打乱后的数据。比如，原始的结果数据为“world”，加密后的结果数据为“rdolw”。

步骤S103：将加密后的结果数据和字体文件标识发送至所述客户端，以使所述客户端基于所述字体文件标识对应的目标字体文件展示所述加密后的结果数据。

其中，所述字体文件标识用于指示客户端采用何种字体文件对加密后的结果数据进行展示。客户端在接收到加密后的结果数据和字体文件标识后，可根据字体文件标识获取与之对应的目标字体文件，并基于该目标字体文件展示加密后的结果数据。由于用户看到的是经由目标字体文件展示的正常内容，而爬虫程序爬取的是乱序的内容，因此既不影响用户体验，又能起到很好的反爬虫效果。

在本发明实施例中，通过以上步骤实现了前后端相结合的爬虫防御策略，能够提高爬虫防御效果，降低爬虫程序的破解难度。进一步，由于本发明实施例中对原始字体文件的加密、对结果数据的加密都是在服务端实现，加密所用的密钥和加密算法对客户端不透明，能够有效防止密钥及加密算法等信息的泄露，进一步提高了爬虫程序的破解难度。

图2是根据本发明第二实施例的反爬虫方法的主要流程示意图。如图2所示，本发明实施例的反爬虫方法包括：

步骤S201：通过伪随机数生成器生成第一密钥。

示例性地，服务端可采用random.randrange方法或者其他伪随机数生成器生成第一密钥。random.randrange方法是一种伪随机数生成器，其可返回从指定范围内选择的随机数。在该可选示例中，所述第一密钥的组成元素为随机数，比如，第一密钥可以为{0,3,1,0}。

进一步，为了防止密钥泄露，提高反爬虫效果，可定期通过伪随机数生成器生成新的第一密钥，以实现第一密钥的更新。并且，可使用新的第一密钥重新执行第一加密算法加密原始字体文件，以及使用新的第二密钥重新执行第二加密算法加密后台API接口的响应内容。

步骤S202：基于第一密钥和第一加密算法对原始字体文件进行加密以得到目标字体文件。

在一个可选示例中，当所述第一加密算法为洗牌算法时，所述基于第一密钥和第一加密算法对原始字体文件进行加密以得到目标字体文件包括：将原始字体文件解析成XML文件；基于第一密钥和所述洗牌算法对所述XML文件进行洗牌打乱；对洗牌打乱后的XML文件进行文件格式转换，以得到目标字体文件。具体实施时，可直接通过python的fonttools库中ttLib下的TTFont方法解析原始字体文件，也可通过其他工具解析原始字体文件。

在上述可选示例中，所述基于第一密钥和所述洗牌算法对所述XML文件进行洗牌打乱具体包括：基于第一密钥和所述洗牌算法对不同字符子标签下的名称属性值进行互换；或者；基于第一密钥和所述洗牌算法对不同字形子标签下的名称属性值进行互换。在一个具体示例中，XML文件中的字符子标签具体为cmap标签下面的map子标签，map子标签的code属性为unicode编码，map子标签的name属性即字符名称；XML文件中的字形子标签具体为glyf标签下面的TTGlyph子标签，TTGlyph子标签的name属性即字形名称。在该具体示例中，可以互换不同map子标签的name属性值，或者互换不同TTGlyph子标签的name属性值，即可打乱字体文件。

进一步，在上述可选示例中，所述目标字体文件可采用WOFF格式。WOFF，全称为WebOpen Font Format(Web开放字体格式)，是Mozilla基金会与微软、谷歌、苹果、TypeSupply,LettError以及其他组织一同开发的一种网页字体格式。该字体格式采用了压缩结构可以减少更多的空间占用，而且不受数位著作权管理的限制。通过采用WOFF格式的字体文件来防范爬虫，能够减少额外的代码或者图片资源的占用，减轻反爬虫程序开发的负担。

此外，为了便于区分不同版本的目标字体文件，在生成目标字体文件时还可包括以下步骤：对第一密钥进行哈希加密以得到消息摘要字符串，将所述消息摘要字符串作为所述目标字体文件的文件名后缀。进而，可通过不同的文件名后缀区分不同版本的目标字体文件。

步骤S203：接收客户端的数据获取请求。

步骤S204：获取第一密钥，对所述第一密钥的组成元素的顺序进行反向以得到第二密钥。

其中，所述第二密钥为第一密钥的反向密钥。在接收到客户端的数据获取请求后，服务端可获取预先保存的第一密钥，并通过对第一密钥的组成元素的顺序进行反向得到第二密钥。例如，假设第一密钥为{0,3,2,0}，第二密钥为{0,2,3,0}。

步骤S205：基于第二密钥和第二加密算法加密结果数据。

其中，所述第二加密算法为第一加密算法的逆向加密算法。比如，第一加密算法为Knuth-Durstenfeld洗牌算法，第二加密算法为逆向Knuth-Durstenfeld洗牌算法。逆向Knuth-Durstenfeld洗牌算法的执行方向与原本Knuth-Durstenfeld洗牌算法的执行方向相反，例如原本Knuth-Durstenfeld洗牌算法开始是将数组最后面的元素与从前面的元素中随机选取的元素进行交换，逆向Knuth-Durstenfeld洗牌算法开始是将数组最前面的元素与从后面的元素中随机选取的元素进行交换。例如，假设原始的结果数据为“world”，基于第二密钥和第二加密算法加密后的结果数据为“rdolw”。

在本发明实施例中，通过第二加密算法对服务端API接口的响应数据进行加密，使得响应数据更加安全。

步骤S206：将加密后的结果数据和字体文件标识发送至所述客户端，以使所述客户端基于所述字体文件标识对应的目标字体文件展示所述加密后的结果数据。

其中，所述字体文件标识用于指示客户端采用何种字体文件对加密后的结果数据进行展示。示例性地，所述字体文件标识可以为目标字体文件的文件名后缀，比如通过对第一密钥进行哈希加密得到的消息摘要字符串。

客户端在接收到加密后的结果数据和字体文件标识后，可根据字体文件标识获取与之对应的目标字体文件，并基于该目标字体文件展示加密后的结果数据。由于加密后的结果数据是经过逆向洗牌算法进行洗牌后的乱序内容，而目标字体文件时经过洗牌算法洗牌打乱后的字体文件，这样一来，用户看到的则是经由目标字体文件展示的正确的内容，而爬虫程序爬取的则是乱序的内容，因此既不影响用户体验，又能起到很好的反爬虫效果。

进一步，为了使反爬虫策略更加灵活多变，使防范爬虫的效果更加突出，可以在同一时间给不同的后台接口的不同结果数据使用不同的加密密钥，同时在前端分别使用不同的目标字体文件，前端通过异步加载目标字体文件来显示对应的内容。

在本发明实施例中，通过以上步骤实现了前后端相结合的反爬虫策略，让爬虫程序更难破解网页中的关键信息，提高了反爬虫效果。与此同时，由于本发明实施例中对原始字体文件的加密、对结果数据的加密都是在服务端实现，加密所用的密钥和加密算法对客户端不透明，能够有效防止密钥及加密算法等信息的泄露，进一步提高了爬虫程序的破解难度。另外，通过定期更新密钥并基于更新后的密钥对目标字体文件进行更新，能够进一步提高反爬虫效果。

图3是根据本发明第三实施例的反爬虫方法的主要流程示意图。如图3所示，本发明实施例的反爬虫方法包括：

步骤S301：向服务端发送数据获取请求。

在该步骤中，客户端(比如网页客户端或应用客户端)向服务端发送数据获取请求。例如，响应于用户在页面上点击“获取价格”标签的触发事件，客户端向服务端发送获取价格数据的请求。

步骤S302：接收所述服务端返回的加密后的结果数据和字体文件标识。

在本发明实施例中，所述加密后的结果数据是服务端基于第二密钥和第二加密算法对结果数据进行加密得到的。其中，所述第二密钥是第一密钥的反向密钥。例如，第一密钥为随机数串，第二密钥为将第一密钥的组成元素的顺序反向后得到的随机数串。比如，第一密钥为{0,3,1,0}，第二密钥为{0,1,3,0}。其中，所述第二加密算法为第一加密算法的逆向加密算法。例如，第一加密算法为Knuth-Durstenfeld洗牌算法，第二加密算法为逆向Knuth-Durstenfeld洗牌算法。逆向Knuth-Du rstenfeld洗牌算法的执行方向与原本Knuth-Durstenfeld洗牌算法的执行方向相反，例如原本Knuth-Durstenfeld洗牌算法开始是将数组最后面的元素与从前面的元素中随机选取的元素进行交换，逆向Knuth-Durstenfeld洗牌算法开始是将数组最前面的元素与从后面的元素中随机选取的元素进行交换。例如，假设原始的结果数据为“world”，基于第二密钥和第二加密算法加密后的结果数据为“rdolw”。

在本发明实施例中，所述字体文件标识用于指示客户端采用何种字体文件对加密后的结果数据进行展示。示例性地，所述字体文件标识可以为目标字体文件的文件名后缀，比如通过对第一密钥进行哈希加密得到的消息摘要字符串。

在本发明实施例中，通过第二密钥和第二加密算法对服务端API接口的响应数据进行加密，使得响应数据更加安全。

步骤S303：获取所述字体文件标识对应的目标字体文件，并基于所述目标字体文件展示所述加密后的结果数据。

其中，所述目标字体文件是服务端基于第一密钥和第一加密算法对原始字体文件进行加密得到的。示例性地，第一密钥可由随机产生的多个数字组成。比如，第一密钥可以为{0,3,1,0}。

客户端在接收到加密后的结果数据和字体文件标识后，可根据字体文件标识获取与之对应的目标字体文件，并基于该目标字体文件展示加密后的结果数据。

在一个可选示例中，客户端根据字体文件标识获取与之对应的目标字体文件进一步包括：客户端查询浏览器缓存，以从所述浏览器缓存中获取所述字体文件标识对应的目标字体文件；如果从浏览器缓存中获取不到所述字体文件标识对应的目标字体文件，从预设的引用资源地址获取所述字体文件标识对应的目标字体文件。通过以上处理步骤，能够在实现爬虫防御的同时，提高页面加载效率，提高用户体验。在另一个可选示例中，客户端也可直接从预设的引用资源地址获取所述字体文件标识对应的目标字体文件。

具体实施时，客户端可利用CSS(层叠样式表)文件中的font-face属性对特定文本指定特定的字体文件来表现出不同的形态内容。通过f ont-face属性可以定义一个特定字体名称的font-family(字体族)以及该字体的引用资源地址，然后再将特定文本的标签或者其类名指定其字体文件为目标字体文件即可。在不影响本发明实施的情况下，客户端还可采用其他方式指定特定的字体文件来表现出不同的形态内容。

在本发明实施例中，由于加密后的结果数据是经过逆向洗牌算法进行洗牌后的乱序内容，而目标字体文件时经过洗牌算法洗牌打乱后的字体文件，这样一来，用户看到的则是经由目标字体文件展示的正确的内容，而爬虫程序爬取的则是乱序的内容，因此既不影响用户体验，又能起到很好的反爬虫效果。

图4是根据本发明第四实施例的反爬虫装置的主要模块示意图。如图4所示，本发明实施例的反爬虫装置400包括：第一加密模块401、第二加密模块402、发送模块403。

第一加密模块401，用于基于第一密钥和第一加密算法对原始字体文件进行加密以得到目标字体文件。

在一个可选示例中，当所述第一加密算法为洗牌算法时，第一加密模块401基于第一密钥和第一加密算法对原始字体文件进行加密以得到目标字体文件包括：第一加密模块401将原始字体文件解析成XML文件；第一加密模块401基于第一密钥和所述洗牌算法对所述XML文件进行洗牌打乱；第一加密模块401对洗牌打乱后的XML文件进行文件格式转换，以得到目标字体文件。具体实施时，可直接通过python的fonttools库中ttLib下的TTFont方法解析原始字体文件，也可通过其他工具解析原始字体文件。

第二加密模块402，用于响应于客户端的数据获取请求，基于第二密钥和第二加密算法加密结果数据。

在接收到客户端(比如Web客户端或者应用客户端)的数据获取请求后，第二加密模块402基于第二密钥和第二加密算法对结果数据进行加密，以得到加密后的结果数据。其中，所述加密后的结果数据为加密打乱后的数据。比如，原始的结果数据为“world”，加密后的结果数据为“rdolw”。

发送模块403，用于将加密后的结果数据和字体文件标识发送至所述客户端，以使所述客户端基于所述字体文件标识对应的目标字体文件展示所述加密后的结果数据。

图5是根据本发明第五实施例的反爬虫装置的主要模块示意图。如图5所示，本发明实施例的反爬虫装置500包括：发送模块501、接收模块502、展示模块503。

发送模块501，用于向服务端发送数据获取请求。

示例性地，发送模块501可在检测到用户的触发事件后，向服务端发送数据获取请求。例如，响应于用户在页面上点击“获取价格”标签的触发事件，客户端向服务端发送获取价格数据的请求。

接收模块502，用于接收所述服务端返回的加密后的结果数据和字体文件标识。

其中，所述加密后的结果数据是服务端基于第二密钥和第二加密算法对结果数据进行加密得到的。进一步，所述第二密钥是第一密钥的反向密钥。例如，第一密钥为随机数串，第二密钥为将第一密钥的组成元素的顺序反向后得到的随机数串。比如，第一密钥为{0,3,1,0}，第二密钥为{0,1,3,0}。进一步，所述第二加密算法为第一加密算法的逆向加密算法。例如，第一加密算法为Knuth-Durstenfeld洗牌算法，第二加密算法为逆向Knuth-Durstenfeld洗牌算法。逆向Knuth-Durstenfeld洗牌算法的执行方向与原本Knuth-Durstenfeld洗牌算法的执行方向相反，例如原本Knuth-Durstenfeld洗牌算法开始是将数组最后面的元素与从前面的元素中随机选取的元素进行交换，逆向Knuth-Durstenfeld洗牌算法开始是将数组最前面的元素与从后面的元素中随机选取的元素进行交换。例如，假设原始的结果数据为“world”，基于第二密钥和第二加密算法加密后的结果数据为“rdolw”。

展示模块503，用于获取所述字体文件标识对应的目标字体文件，并基于所述目标字体文件展示所述加密后的结果数据。

在一个可选示例中，展示模块503根据字体文件标识获取与之对应的目标字体文件进一步包括：展示模块503查询浏览器缓存，以从所述浏览器缓存中获取所述字体文件标识对应的目标字体文件；如果从浏览器缓存中获取不到所述字体文件标识对应的目标字体文件，从预设的引用资源地址获取所述字体文件标识对应的目标字体文件。通过以上处理，能够在实现爬虫防御的同时，提高页面加载效率，提高用户体验。在另一个可选示例中，展示模块503也可直接从预设的引用资源地址获取所述字体文件标识对应的目标字体文件。

图6示出了可以应用本发明实施例的反爬虫方法或反爬虫装置的示例性系统架构600。

如图6所示，系统架构600可以包括终端设备601、602、603，网络604和服务器605。网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备601、602、603通过网络604与服务器605交互，以接收或发送消息等。终端设备601、602、603上可以安装有各种通讯客户端应用，例如金融服务类应用、购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备601、602、603可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器605可以是提供各种服务的服务器，例如对用户利用终端设备601、602、603所发出的数据获取请求提供支持的后台管理服务器。后台管理服务器可以在接收到数据获取请求后，基于第二密钥和第二加密算法加密结果数据，并将加密后的结果数据返回至终端设备。

需要说明的是，本发明一个实施例所提供的反爬虫方法可以由服务器605执行，相应地，本发明一个实施例所提供的反爬虫装置设置于服务器605中。

应该理解，图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图7，其示出了适于用来实现本发明实施例的电子设备的计算机系统700的结构示意图。图7示出的计算机系统仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，计算机系统700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括第一加密模块、第二加密模块、发送模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，第一加密模块还可以被描述为“对原始字体文件进行加密的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备执行以下流程：基于第一密钥和第一加密算法对原始字体文件进行加密以得到目标字体文件；响应于客户端的数据获取请求，基于第二密钥和第二加密算法加密结果数据；其中，所述第二密钥为第一密钥的反向密钥，所述第二加密算法为第一加密算法的逆向加密算法；将加密后的结果数据和字体文件标识发送至所述客户端，以使所述客户端基于所述字体文件标识对应的目标字体文件展示所述加密后的结果数据。

根据本发明实施例的技术方案，能够提高反爬虫的防御效果，提高爬虫程序的破解难度。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种反爬虫方法，其特征在于，所述方法包括：

基于第一密钥和第一加密算法对原始字体文件进行加密以得到目标字体文件，对所述第一密钥进行哈希加密以得到消息摘要字符串，将所述消息摘要字符串作为所述目标字体文件的文件名后缀；

响应于客户端的数据获取请求，基于第二密钥和第二加密算法加密结果数据；其中，所述第二密钥为第一密钥的反向密钥，所述第二加密算法为第一加密算法的逆向加密算法；

将加密后的结果数据和字体文件标识发送至所述客户端，以使所述客户端基于所述字体文件标识对应的目标字体文件展示所述加密后的结果数据；其中，所述字体文件标识为所述消息摘要字符串。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在基于第一密钥和第一加密算法对原始字体文件进行加密以得到目标字体文件之前，通过伪随机数生成器生成所述第一密钥。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

在所述基于第二密钥和第二加密算法加密结果数据之前，获取第一密钥，对所述第一密钥的组成元素的顺序进行反向以得到所述第二密钥。

4.根据权利要求3所述的方法，其特征在于，所述第一加密算法为洗牌算法；所述基于第一密钥和第一加密算法对原始字体文件进行加密以得到目标字体文件包括：

将原始字体文件解析成XML文件；基于第一密钥和所述洗牌算法对所述XML文件进行洗牌打乱；对洗牌打乱后的XML文件进行文件格式转换，以得到目标字体文件。

5.根据权利要求4所述的方法，其特征在于，基于第一密钥和所述洗牌算法对所述XML文件进行洗牌打乱包括：

基于第一密钥和所述洗牌算法对不同字符子标签下的名称属性值进行互换；或者；基于第一密钥和所述洗牌算法对不同字形子标签下的名称属性值进行互换。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在客户端基于所述字体文件标识对应的目标字体文件展示所述加密后的结果数据之前，查询浏览器缓存，以从所述浏览器缓存中获取所述字体文件标识对应的目标字体文件；如果从浏览器缓存中获取不到所述字体文件标识对应的目标字体文件，从预设的引用资源地址获取所述字体文件标识对应的目标字体文件。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

定时对第一密钥进行更新，基于更新后的第一密钥和第一加密算法对原始字体文件进行重新加密以实现目标字体文件的更新。

8.根据权利要求1所述的方法，其特征在于，所述目标字体文件为WOFF格式的字体文件。

9.一种反爬虫方法，其特征在于，所述方法包括：

向服务端发送数据获取请求；

接收所述服务端返回的加密后的结果数据和字体文件标识；其中，所述加密后的结果数据是服务端基于第二密钥和第二加密算法对结果数据进行加密得到的；

获取所述字体文件标识对应的目标字体文件，并基于所述目标字体文件展示所述加密后的结果数据；其中，所述目标字体文件是服务端基于第一密钥和第一加密算法对原始字体文件进行加密得到的，对所述第一密钥进行哈希加密以得到消息摘要字符串，将所述消息摘要字符串作为所述目标字体文件的文件名后缀，所述字体文件标识为所述消息摘要字符串，所述第一密钥为第二密钥的反向密钥，所述第一加密算法为第二加密算法的逆向加密算法。

10.一种反爬虫装置，其特征在于，所述装置包括：

第一加密模块，用于基于第一密钥和第一加密算法对原始字体文件进行加密以得到目标字体文件，对所述第一密钥进行哈希加密以得到消息摘要字符串，将所述消息摘要字符串作为所述目标字体文件的文件名后缀；

第二加密模块，用于响应于客户端的数据获取请求，基于第二密钥和第二加密算法加密结果数据；其中，所述第二密钥为第一密钥的反向密钥，所述第二加密算法为第一加密算法的逆向加密算法；

发送模块，用于将加密后的结果数据和字体文件标识发送至所述客户端，以使所述客户端基于所述字体文件标识对应的目标字体文件展示所述加密后的结果数据；其中，所述字体文件标识为所述消息摘要字符串。

11.一种反爬虫装置，其特征在于，所述装置包括：

发送模块，用于向服务端发送数据获取请求；

接收模块，用于接收所述服务端返回的加密后的结果数据和字体文件标识；其中，所述加密后的结果数据是服务端基于第二密钥和第二加密算法对结果数据进行加密得到的；

展示模块，用于获取所述字体文件标识对应的目标字体文件，并基于所述目标字体文件展示所述加密后的结果数据；其中，所述目标字体文件是服务端基于第一密钥和第一加密算法对原始字体文件进行加密得到的，对所述第一密钥进行哈希加密以得到消息摘要字符串，将所述消息摘要字符串作为所述目标字体文件的文件名后缀，所述字体文件标识为所述消息摘要字符串，所述第一密钥为第二密钥的反向密钥，所述第一加密算法为第二加密算法的逆向加密算法。

12.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。

13.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-9中任一所述的方法。