CN108173823A

CN108173823A - 页面防抓取方法及装置

Info

Publication number: CN108173823A
Application number: CN201711389232.0A
Authority: CN
Inventors: 张文选
Original assignee: Wuba Co Ltd
Current assignee: Wuba Co Ltd
Priority date: 2017-12-21
Filing date: 2017-12-21
Publication date: 2018-06-15

Abstract

本发明实施例提供一种页面防抓取方法及装置，应用于业务集群服务器，所述方法包括：对于所述业务集群服务器所支持的各项业务，均执行如下步骤：接收客户端发送的页面获取请求，所述页面获取请求中包括所述页面获取请求对应的访问信息；根据所述访问信息和预设检测策略，确定所述页面获取请求的安全检测结果；根据所述安全检测结果，指示对应的服务器处理所述页面获取请求。提高了对校验逻辑进行维护的灵活性和效率。

Description

页面防抓取方法及装置

技术领域

本发明实施例涉及互联网技术领域，尤其涉及一种页面防抓取方法及装置。

背景技术

随着互联网技术的不断发展，网站中包括的数据越来越多，且网站中的很多数据具有较高的价值。

目前，很多不良商家为了个人利益，通过不法手段(例如爬虫)从其它网站恶意抓取页面内容，这样，不但导致网站的核心内容被盗取，还有可能导致网站的业务服务器出现瘫痪。在现有技术中，为了避免页面中的内容被恶意抓取，在业务服务器接收到客户端发送的页面获取请求之后，业务服务器通常会对该页面获取请求进行校验，例如，可以对页面获取请求中的IP地址等信息进行校验，在校验通过之后，再向客户端发送页面内容。

然而，在现有技术中，业务服务器对页面获取请求的校验过程嵌入在业务服务器向客户端提供页面服务的业务逻辑中，当需要对校验过程进行修改时，均需要对整个业务逻辑进行修改，导致页面防抓取方法的灵活性差。

发明内容

本发明实施例提供一种页面防抓取方法及装置，提高了对校验逻辑进行维护的灵活性和效率。

第一方面，本发明实施例提供一种页面防抓取方法，应用于业务集群服务器，所述方法包括：

对于所述业务集群服务器所支持的各项业务，均执行如下步骤：

接收客户端发送的页面获取请求，所述页面获取请求中包括所述页面获取请求对应的访问信息；

根据所述访问信息和预设检测策略，确定所述页面获取请求的安全检测结果；

根据所述安全检测结果，指示对应的服务器处理所述页面获取请求。

在一种可能的实施方式中，所述访问信息中包括所述客户端的互联网协议IP地址；根据所述访问信息和预设检测策略，确定所述页面获取请求的安全检测结果，包括：

根据所述客户端的IP地址，判断预设缓存中是否存储有所述客户端的IP地址对应的安全检测结果；

若是，则将所述客户端的IP地址对应的安全检测结果确定为所述访问信息对应的安全检测结果；

若否，则确定所述访问信息对应的安全检测结果为安全。

在另一种可能的实施方式中，确定所述访问信息对应的安全检测结果为安全之后，还包括：

通过分布式消息系统在所述访问信息中获取所述客户端的超文本传输协议HTTP请求信息；

根据所述客户端的IP地址和HTTP请求信息中的至少一种，按照所述预设检测策略，确定所述客户端的IP地址对应安全检测结果；

将所述客户端的IP地址和所述安全检测结果存储至所述预设缓存中。

在另一种可能的实施方式中，根据所述客户端的IP地址和HTTP请求信息中的至少一种，确定所述客户端的IP地址对应安全检测结果，包括：

获取预设黑名单或者预设白名单，所述预设黑名单和所述预设白名单在多个业务线之间共享；

若所述客户端的IP地址在所述预设黑名单中，则确定所述客户端的IP地址对应的安全检测结果为不安全；

若所述客户端的IP地址在所述预设白名单中，则确定所述客户端的IP地址对应的安全检测结果为安全。

获取所述客户端的IP地址对应的访问频率、城市切换频率和网络信息，所述城市切换频率是指所述客户端的IP地址切换访问不同城市的网络的频率，所述网络信息包括网络地址和域名系统DNS；

若所述客户端的IP地址的访问频率大于第一阈值、或者所述客户端的IP地址的城市切换频率大于第二阈值、或者所述网络信息异常，则确定所述客户端的IP地址对应安全检测结果为不安全，否则，确定所述客户端的IP地址对应安全检测结果为安全。

判断所述HTTP请求中是否包括用户代理信息；

若是，则判断所述用户代理信息是否为搜索引擎的用户代理信息，若是，则确定所述客户端的IP地址对应安全检测结果为安全，若否，则确定所述客户端的IP地址对应安全检测结果为不安全；

若否，则确定所述客户端的IP地址对应安全检测结果为不安全。

判断在接收到所述页面获取请求之后的预设时长内，是否接收到异步请求，所述异步请求用于请求加载脚本文件；

若是，则确定所述客户端的IP地址对应安全检测结果为安全；

在另一种可能的实施方式中，所述根据所述安全检测结果，指示对应的服务器处理所述页面获取请求，包括：

根据所述安全检测结果，判断是否拦截所述页面获取请求；

若是，则指示所述对应的服务器向所述客户端发送验证码填写页面；

若否，则指示所述对应的服务器向所述客户端发送所述页面获取请求对应的页面信息。

第二方面，本发明实施例提供一种页面防抓取装置，包括接收模块、第一确定模块和指示模块，其中，对于所述业务集群服务器所支持的各项业务：

所述接收模块用于，接收客户端发送的页面获取请求，所述页面获取请求中包括所述页面获取请求对应的访问信息；

所述第一确定模块用于，根据所述访问信息和预设检测策略，确定所述页面获取请求的安全检测结果；

所述指示模块用于，根据所述安全检测结果，指示对应的服务器处理所述页面获取请求。

在一种可能的实施方式中，所述访问信息中包括所述客户端的互联网协议IP地址；所述第一确定模块具体用于：

若否，则确定所述访问信息对应的安全检测结果为安全。

在另一种可能的实施方式中，所述装置还包括获取模块、第二确定模块和存储模块，其中，

所述获取模块用于，在所述第一确定模块确定所述访问信息对应的安全检测结果为安全之后，通过分布式消息系统在所述访问信息中获取所述客户端的超文本传输协议HTTP请求信息；

所述第二确定模块用于，根据所述客户端的IP地址和HTTP请求信息中的至少一种，按照所述预设检测策略，确定所述客户端的IP地址对应安全检测结果；

所述存储模块用于，将所述客户端的IP地址和所述安全检测结果存储至所述预设缓存中。

在另一种可能的实施方式中，所述第二确定模块具体用于：

判断所述HTTP请求中是否包括用户代理信息；

在另一种可能的实施方式中，所述第二确定模块具体用于：

在另一种可能的实施方式中，所述指示模块具体用于：

根据所述安全检测结果，判断是否拦截所述页面获取请求；

本发明实施例提供的页面防抓取方法及装置，对于业务集群服务器所支持的各项业务，在业务集群服务器接收客户端发送的、包括访问信息的页面获取请求之后，根据访问信息和预设检测策略，确定页面获取请求的安全检测结果；根据安全检测结果，指示对应的服务器处理页面获取请求。在上述过程中，在服务器向处理客户端发送的页面获取请求之前，由业务集群服务器对客户端发送的页面获取请求进行安全校验，将校验逻辑和业务逻辑分离，这样，可以对校验逻辑和业务逻辑进行分别维护，降低了业务逻辑和校验逻辑的耦合性，进而提高了对校验逻辑进行维护的灵活性。进一步的，对业务集群服务器支持的每一项业务的处理流程相同，无需对业务集群服务器支持的每项业务进行单独维护，进而提高了对业务集群服务器支持的每项业务的维护效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的页面防抓取方法的应用场景示意图；

图2为本发明实施例提供的页面防抓取方法的流程示意图；

图3为本发明实施例提供的确定安全检测结果方法的流程示意图；

图4为本发明实施例提供的页面防抓取装置的结构示意图一；

图5为本发明实施例提供的页面防抓取装置的结构示意图二。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的页面防抓取方法的应用场景示意图。请参见图1，包括客户端101和业务集群服务器102。其中，客户端101可以为手机、电脑等设备。当客户端101需要请求获取服务时，客户端101可以向业务集群服务器102发送页面获取请求。业务集群服务器102可以对页面获取请求进行检测以获取页面获取请求对应的安全检测结果，在确定安全检测结果为安全时，再指示对应的服务器处理客户端101发送的页面获取请求。

在上述过程中，在服务器向处理客户端发送的页面获取请求之前，由业务集群服务器对客户端发送的页面获取请求进行安全校验，将校验逻辑和业务逻辑分离，这样，可以对校验逻辑和业务逻辑进行分别维护，降低了业务逻辑和校验逻辑的耦合性，进而提高了对校验逻辑进行维护的灵活性。进一步的，对业务集群服务器支持的每一项业务的处理流程相同，无需对业务集群服务器支持的每项业务进行单独维护，进而提高了对业务集群服务器支持的每项业务的维护效率。

下面，通过具体实施例，对本申请所示的技术方案进行详细说明。需要说明的是，下面几个具体实施例可以相互结合，对于相同或相似的内容，在不同的实施例中不再进行重复说明。

图2为本发明实施例提供的页面防抓取方法的流程示意图。该方法的执行主体为业务集群服务器，请参见图2，对于业务集群服务器所支持的各项业务，均执行如下步骤：

S201、接收客户端发送的页面获取请求，页面获取请求中包括页面获取请求对应的访问信息。

可选的，页面获取请求用于向服务器请求获取页面。

可选的，访问信息中可以包括客户端的互联网协议(Internet Protocol，简称IP)地址。或者，访问信息中可以包括客户端的IP地址和访问信息中超文本传输协议(HyperText Transfer Protocol，简称HTTP)请求信息。

当然，在实际应用过程中，访问信息中还可以包括其它内容，本发明实施例对此不作具体限定。

S202、根据访问信息和预设检测策略，确定页面获取请求的安全检测结果。

可选的，当访问信息中包括客户端的IP地址时，可以通过如下可行的实现方式确定页面获取请求的安全检测结果：根据客户端的IP地址，判断预设缓存中是否存储有客户端的IP地址对应的安全检测结果；若是，则将客户端的IP地址对应的安全检测结果确定为访问信息对应的安全检测结果；若否，则确定访问信息对应的安全检测结果为安全。

在该种可行的实现方式中，针对一个客户端的IP地址，只需要确定一次该IP地址对应的安全检测结果，在确定得到该IP地址对应的安全检测结果之后，可以将该安全检测结果存储至缓存中。由于一个客户端的IP地址通常不变、且客户端的属性(是否为恶意客户端)也通常不变，因此，一个IP地址对应的安全检测结果通常不变。

在该种可行的实现方式中，在客户端第一次发送页面获取请求时，业务集群服务器通常还没有获取得到该客户端的IP地址对应的安全检测结果，即，缓存中不存在该客户端的IP地址对应的安全检测结果。而且，在客户端第一次发送页面获取请求时，通常不会拦截该页面获取请求，即，在客户端第一次发送页面获取请求时，将该次页面获取请求对应的安全检测结果确定为安全，但是，此时确定得到的安全检测结果并不会写入缓存，而是按照预设检测策略对该客户端进行进一步的检测，并将进一步的安全检测结果写入缓存。

在客户端第二次、以及第二次之后发送页面获取请求时，缓存中已存在该客户端的IP地址对应的安全检测结果，因此，业务集群服务器直接在缓存中获取该客户端的IP地址对应的安全检测结果即可，无需再重新对该次页面获取请求进行检测以获取安全检测结果，进而提高了确定安全检测结果的效率。

S203、根据安全检测结果，指示对应的服务器处理页面获取请求。

可选的，可以根据如下可行的实现方式指示对应的服务器处理页面获取请求：根据安全检测结果，判断是否拦截页面获取请求，若是，则指示对应的服务器向客户端发送验证码填写页面；若否，则指示对应的服务器向客户端发送页面获取请求对应的页面信息。

可选的，当安全检测结果为不安全时，则确定拦截该页面获取请求，并指示对应的服务器向客户端发送验证码填写页面。在客户端接收到验证码填写页面之后，若客户端为正常客户端，则位于客户端的用户可以正常填写该验证码填写页面中的验证信息，在用户填写完验证信息之后，可以将验证信息发送给服务器，若服务器验证该验证信息正确，则可以继续向客户端提供服务。若客户端为恶意客户端，例如，客户端为被恶意程序控制，则无法正确填写该验证码填写页面中的验证信息，则成功拦截该页面获取请求。这样，可以保护网页数据不会被恶意爬虫抓取，导致网络流量暴增，防止服务器被拖垮。

可选的，当安全检测结果为安全时，则指示对应的服务器向客户端发送页面获取请求对应的页面信息。

本发明实施例提供的页面防抓取方法，对于业务集群服务器所支持的各项业务，在业务集群服务器接收客户端发送的、包括访问信息的页面获取请求之后，根据访问信息和预设检测策略，确定页面获取请求的安全检测结果；根据安全检测结果，指示对应的服务器处理页面获取请求。在上述过程中，在服务器向处理客户端发送的页面获取请求之前，由业务集群服务器对客户端发送的页面获取请求进行安全校验，将校验逻辑和业务逻辑分离，这样，可以对校验逻辑和业务逻辑进行分别维护，降低了业务逻辑和校验逻辑的耦合性，进而提高了对校验逻辑进行维护的灵活性。进一步的，对业务集群服务器支持的每一项业务的处理流程相同，无需对业务集群服务器支持的每项业务进行单独维护，进而提高了对业务集群服务器支持的每项业务的维护效率。

在图2所示实施例的基础上，在一个客户端第一次发送页面获取请求之后，业务集群服务器需要根据页面获取请求中的安全访问信息确定用于向缓存中存储的安全检测结果。下面，通过图3所示的实施例对该过程进行详细说明。

图3为本发明实施例提供的确定安全检测结果方法的流程示意图。请参见图3，该方法可以包括：

S301、通过分布式消息系统在访问信息中获取客户端的HTTP请求信息。

可选的，分布式消息系统可以为KAFKA队列。

例如，业务集群服务器可以通过订阅KAFKA队列消息，实现在访问信息中获取客户端的HTTP请求信息。

S302、根据客户端的IP地址和HTTP请求信息中的至少一种，按照预设检测策略，确定客户端的IP地址对应安全检测结果。

可选的，业务集群服务器可以通过至少如下七种可行的实现方式确定客户端的IP地址对应安全检测结果：

第一种可行的实现方式：

获取预设黑名单，若客户端的IP地址在预设黑名单中，则确定客户端的IP地址对应的安全检测结果为不安全，其中，预设黑名单在多个业务线之间共享。

通过在各业务线之间共享预设黑名单，可以实现减少各个业务线的维护成本。

第二种可行的实现方式：

获取预设白名单，若客户端的IP地址在预设白名单中，则确定客户端的IP地址对应的安全检测结果为安全，其中，预设白名单在多个业务线之间共享。

通过在各业务线之间共享预设白名单，可以实现减少各个业务线的维护成本。

第三种可行的实现方式：

获取客户端的IP地址对应的访问频率，若客户端的IP地址的访问频率大于第一阈值，则确定客户端的IP地址对应安全检测结果为不安全，否则，确定客户端的IP地址对应安全检测结果为安全。

可选的，访问频率可以为客户端每分钟的访问量，访问频率还可以为客户端每半小时的访问量等。在实际应用过程中，可以根据实际需要确定该访问频率，本发明实施例对此不作具体限定。

在实际应用过程中，当正常用户对客户端进行操作实现发送页面获取请求时，客户端的IP地址对应的访问频率通常会小于第一阈值，因此，当客户端的IP地址对应的访问频率大于第一阈值时，则可以确定客户端的IP地址对应安全检测结果为不安全。

需要说明的是，在实际应用过程中，可以根据实际需要设置该第一阈值，本发明实施例对此不作具体限定。

第四种可行的实现方式：

获取客户端的IP地址对应的城市切换频率，若客户端的IP地址的城市切换频率大于第二阈值，则确定客户端的IP地址对应安全检测结果为不安全，否则，确定客户端的IP地址对应安全检测结果为安全。

其中，城市切换频率是指客户端的IP地址切换访问不同城市的网络的频率。

可选的，城市切换频率可以为客户端每分钟访问的网络所在城市的数量，或者，城市切换频率可以为客户端每小时访问的网络所在的城市的数量。在实际应用过程中，可以根据实际需要确定该城市切换频率，本发明实施例对此不作具体限定。

在实际应用过程中，当正常用户对客户端进行操作实现发送页面获取请求时，客户端的IP地址对应的城市切换频率通常会小于第二阈值，因此，当客户端的IP地址对应的城市切换频率大于第二阈值时，则可以确定客户端的IP地址对应安全检测结果为不安全。

需要说明的是，在实际应用过程中，可以根据实际需要设置该第二阈值，本发明实施例对此不作具体限定。

第五种可行的实现方式：

获取客户端的IP地址对应的网络信息，若网络信息异常，则确定客户端的IP地址对应安全检测结果为不安全，否则，确定客户端的IP地址对应安全检测结果为安全。

其中，网络信息包括网络地址和域名系统(Domain Name System，简称DNS)

可选的，可以通过反解析IP，查询IP对应的网络地址及DNS信息，查看该网络地址和DNS信息是否为正常的搜索引擎公司所有，若是，则可以确定网络信息正常，若否，则可以确定网络信息异常。

第六种可行的实现方式：

判断HTTP请求中是否包括用户代理信息。

若是，则判断用户代理信息是否为搜索引擎的用户代理信息，若是，则确定客户端的IP地址对应安全检测结果为安全，若否，则确定客户端的IP地址对应安全检测结果为不安全。

若否，则确定客户端的IP地址对应安全检测结果为不安全。

第七种可行的实现方式：

判断在接收到页面获取请求之后的预设时长内，是否接收到异步请求，异步请求用于请求加载脚本文件；若是，则确定客户端的IP地址对应安全检测结果为安全；若否，则确定客户端的IP地址对应安全检测结果为不安全。

可选的，预设时长可以为10分钟、5分钟等。当然，在实际应用过程中，可以根据实际需要设置该预设时长，本发明实施例对此不作具体限定。

可选的，脚本文件可以为JS文件。

在实际应用过程中，正常用户会加载页面埋点的JS文件，并自动运行JS文件发送异步请求。而异常的用户则不会加载页面埋点的JS文件，更不会自动运行JS文件发送异步请求。因此，若业务集群服务器在接收到页面获取请求之后的预设时长内接收到异步请求，则可以确定客户端的IP地址对应安全检测结果为安全，否则，则可以确定客户端的IP地址对应安全检测结果为不安全。

S303、将客户端的IP地址和安全检测结果存储至预设缓存中。

需要说明的是，在实际应用过程中，可以定期对预设缓存中的内容进行更新。

在上述任意一个实施例的基础上，可选的，在业务集群服务器确定得到客户端对应IP地址对应的安全检测结果之后，还可以将日志信息存储在本地文件，以供历史数据分析。例如，可以通过日志收集系统flume拉取日志到分布式文件系统(Hadoop DistributedFile System，简称HDFS)。

可选的，在实际应用过程中，还可以获取每天的抓取情况及拦截情况，并向维护人员发送抓取情况及拦截情况，以使维护人员了解网络系统的运行情况。

在实际应用过程中，当一个业务集群服务器的负载过高时，还可以增加业务集群服务器的数量，进而实现网络系统支持水平扩展。

图4为本发明实施例提供的页面防抓取装置的结构示意图一。请参见图4，包括接收模块11、第一确定模块12和指示模块13，其中，对于所述业务集群服务器所支持的各项业务：

所述接收模块11用于，接收客户端发送的页面获取请求，所述页面获取请求中包括所述页面获取请求对应的访问信息；

所述第一确定模块12用于，根据所述访问信息和预设检测策略，确定所述页面获取请求的安全检测结果；

所述指示模块13用于，根据所述安全检测结果，指示对应的服务器处理所述页面获取请求。

本发明实施例提供的页面防抓取装置可以执行上述方法实施例所示的技术方案，其实现原理以及有益效果类似，此处不再进行赘述。

在一种可能的实施方式中，所述访问信息中包括所述客户端的互联网协议IP地址；所述第一确定模块12具体用于：

若否，则确定所述访问信息对应的安全检测结果为安全。

图5为本发明实施例提供的页面防抓取装置的结构示意图二。在图4所示实施例的基础上，请参见图5，所述装置还包括获取模块14、第二确定模块15和存储模块16，其中，

所述获取模块14用于，在所述第一确定模块12确定所述访问信息对应的安全检测结果为安全之后，通过分布式消息系统在所述访问信息中获取所述客户端的超文本传输协议HTTP请求信息；

所述第二确定模块15用于，根据所述客户端的IP地址和HTTP请求信息中的至少一种，按照所述预设检测策略，确定所述客户端的IP地址对应安全检测结果；

所述存储模块16用于，将所述客户端的IP地址和所述安全检测结果存储至所述预设缓存中。

在另一种可能的实施方式中，所述第二确定模块15具体用于：

判断所述HTTP请求中是否包括用户代理信息；

在另一种可能的实施方式中，所述指示模块13具体用于：

根据所述安全检测结果，判断是否拦截所述页面获取请求；

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明实施例的技术方案，而非对其限制；尽管参照前述各实施例对本发明实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例方案的范围。

Claims

1.一种页面防抓取方法，其特征在于，应用于业务集群服务器，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述访问信息中包括所述客户端的互联网协议IP地址；根据所述访问信息和预设检测策略，确定所述页面获取请求的安全检测结果，包括：

若否，则确定所述访问信息对应的安全检测结果为安全。

3.根据权利要求2所述的方法，其特征在于，确定所述访问信息对应的安全检测结果为安全之后，还包括：

4.根据权利要求3所述的方法，其特征在于，根据所述客户端的IP地址和HTTP请求信息中的至少一种，确定所述客户端的IP地址对应安全检测结果，包括：

5.根据权利要求3所述的方法，其特征在于，根据所述客户端的IP地址和HTTP请求信息中的至少一种，确定所述客户端的IP地址对应安全检测结果，包括：

6.根据权利要求3所述的方法，其特征在于，根据所述客户端的IP地址和HTTP请求信息中的至少一种，确定所述客户端的IP地址对应安全检测结果，包括：

判断所述HTTP请求中是否包括用户代理信息；

7.根据权利要求3所述的方法，其特征在于，根据所述客户端的IP地址和HTTP请求信息中的至少一种，确定所述客户端的IP地址对应安全检测结果，包括：

8.根据权利要求1-7任一项所述的方法，其特征在于，所述根据所述安全检测结果，指示对应的服务器处理所述页面获取请求，包括：

根据所述安全检测结果，判断是否拦截所述页面获取请求；

9.一种页面防抓取装置，其特征在于，包括接收模块、第一确定模块和指示模块，其中，对于所述业务集群服务器所支持的各项业务：

10.根据权利要求9所述的装置，其特征在于，所述访问信息中包括所述客户端的互联网协议IP地址；所述第一确定模块具体用于：

若否，则确定所述访问信息对应的安全检测结果为安全。