CN103279516B

CN103279516B - 网络爬虫识别方法

Info

Publication number: CN103279516B
Application number: CN201310200211.5A
Authority: CN
Inventors: 张旭东
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2013-05-27
Filing date: 2013-05-27
Publication date: 2016-09-14
Anticipated expiration: 2033-05-27
Also published as: CN103279516A

Abstract

提供一种网络爬虫识别方法。所述网络爬虫识别方法，包括以下步骤：确定入口网页上能够导向后端页面的连接；在每个确定的连接中创建新的无效连接；将创建的无效连接设置为隐蔽形式；当发出对隐蔽形式的无效连接的请求时，将所述请求识别为网络爬虫请求。所述网络爬虫识别方法可以准确地判断请求是否是网络爬虫发出，并且随着使用时间增加，识别效果会随着使用时间的积累而显著改善。

Description

网络爬虫识别方法

技术领域

本发明涉及一种网络爬虫识别方法，更具体地讲，涉及一种使用隐蔽连接来有效地识别网络爬虫的方法。

背景技术

网络爬虫是一种自动获取网页内容的程序。在网页产品中，经常会出现有网络爬虫抓取页面内容而对网页的正常访问流量造成影响的问题。因此，需要对网络爬虫请求进行识别，以方便对网络爬虫进行过滤和屏蔽。

目前识别网络爬虫的方法主要有以下两种，即，请求分析法和统计法。请求分析法对单次请求包含的请求http包中的user agent信息进行分析，如果是明显的网络爬虫信息，则将相应的请求识别为网络爬虫请求。统计法对所有的请求根据IP进行访问轨迹统计，如果访问符合以下规则，则将相应的请求识别为爬虫请求：（1）访问比较平均，相隔一段接近的时间发出访问；（2）一天总访问量远大于正常IP的请求。

然而，请求分析法和统计法都存在明显的缺点。

请求分析法的缺点在于，只能识别到有提供明确信息的正规网络爬虫，如百度爬虫、搜搜爬虫等。然而，实际中有很多不规范的网络爬虫或者由竞争对手伪装的网络爬虫，它们都不会提供明确信息，这样就导致请求分析法无法对这一类网络爬虫进行识别。统计分析法的缺点在于：（1）其判断的规律无法确切定义，只能根据产品自身实际情况进行设定，存在误差；（2）其结果是不确定的，因为符合规律的IP只是在比较大概率上可能是网络爬虫，存在一些校园网、公司网出口的IP也会符合规律的情况。

发明内容

本发明的一方面提供一种网络爬虫识别方法，包括以下步骤：确定入口网页上能够导向后端页面的连接；在每个确定的连接中创建新的无效连接；将创建的无效连接设置为隐蔽形式；当发出对隐蔽形式的无效连接的请求时，将所述请求识别为网络爬虫请求。

可选地，创建新的无效连接的步骤包括：如果一个确定的连接中存在唯一表示该连接的字段，则生成一个该字段的无效值，并用该无效值拼装进该连接中，从而创建一个无效连接；如果一个确定的连接中不存在唯一表示该连接的字段，则在该连接中添加一个参数，从而创建一个无效连接，其中，创建的无效连接被记为ILink_ij。

可选地，将创建的无效连接设置为隐蔽形式的步骤包括：在与每个确定的连接对应的页面的主模块的html代码中添加<a href=ILink_ijstyle="display:none;"></a>形式的代码，从而将创建的无效连接设置为隐蔽形式。

可选地，将创建的无效连接设置为隐蔽形式的步骤还包括：如果包含<ahref=ILink_ij style="display:none;"></a>形式的代码的无效连接可穷尽，则将相应的无效连接记录到集合Ilink1中，如果包含<a href=ILink_ijstyle="display:none;"></a>形式的代码的无效连接不可穷尽，则将相应的无效连接记录到集合Ilink2中。

可选地，添加到确定的连接中的参数彼此不同。

可选地，识别网络爬虫请求的步骤包括：确定与发出的请求相应的连接是否设置在爬虫集合中；如果与发出的请求相应的连接设置在爬虫集合中，则将发出的请求识别为网络爬虫请求；如果与发出的请求相应的连接没有设置在爬虫集合中，则确定与发出的请求相应的连接是否设置在集合Ilink1中；如果与发出的请求相应的连接设置在集合Ilink1中，则将发出的请求识别为网络爬虫请求，并将与发出的请求相应的连接记录到爬虫集合中；如果与发出的请求相应的连接没有设置在集合Ilink1中，则确定与发出的请求相应的连接是否设置在集合Ilink2中；如果与发出的请求相应的连接设置在集合Ilink2中，则将发出的请求识别为网络爬虫请求，并将与发出的请求相应的连接记录到爬虫集合中；如果与发出的请求相应的连接没有设置在集合Ilink2中，则将发出的请求识别为非网络爬虫请求。

可选地，爬虫集合初始设置为空集。

根据本发明的实施例的网络爬虫识别方法，通过根据网络爬虫的抓取特征在源头网页代码中添加标示，可以准确地判断请求是否是网络爬虫发出，并且随着使用时间增加，识别效果会随着使用时间的积累而显著改善。

附图说明

通过下面结合附图进行的详细描述，本发明的上述和其它目的、特点和优点将会变得更加清楚，其中：

图1是示出根据本发明的实施例的网络爬虫识别方法的流程图；

图2是示出根据本发明的实施例的网络爬虫识别方法中的识别网络爬虫请求的步骤的流程图。

具体实施方式

下面，将参照附图详细描述本发明的实施例。

图1是示出根据本发明的实施例的网络爬虫识别方法的流程图。

参照图1，在步骤S101中，确定入口网页上能够导向后端页面的连接。例如，对于百度首页，http://www.baidu.com/是入口网页，而搜索框上方的新闻、网页、贴吧、知道、音乐、图片、视频、地图、百科、文库、更多等是能够导向后端页面的连接。此外，当在百度首页中进行搜索时，“百度一下”按钮是能够导向后端页面的连接。另一方面，当直接访问百度文库时，百度文库首页http://wenku.baidu.com/是入口网页，而百度文库首页上列出的各个文档连接则是能够导向后端页面的连接。

在步骤S102中，在每个确定的连接中创建新的无效连接。具体地讲，对于能够导向后端页面的连接的集合B_i中的每个连接b_ij，如果b_ij中存在唯一表示该连接的字段，则生成一个该字段的无效值（例如，IV_ij），并用该无效值拼装进该连接b_ij中，从而创建一个无效连接，创建的无效连接被记为ILink_ij。另一方面，如果b_ij中不存在唯一表示该连接的字段，则在该连接b_ij中添加一个参数（例如，IP_ij），从而创建一个无效连接，创建的无效连接也被记为ILink_ij。这里，对于每个连接b_ij，可添加到其中的参数IP_ij彼此不同。

在步骤S103中，将创建的无效连接设置为隐蔽形式。根据本发明的实施例，可通过在与b_ij对应的页面的主模块的html代码中添加<a href=ILink_ijstyle="display:none;"></a>形式的代码，来将创建的无效连接设置为隐蔽形式。此外，如果包含<a href=ILink_ij style="display:none;"></a>形式的代码的无效连接可穷尽，则将相应的无效连接记录到集合Ilink1中，如果包含<a href=ILink_ij style="display:none;"></a>形式的代码的无效连接不可穷尽，则将相应的无效连接记录到集合Ilink2中。例如，百度文库中某个文集的数量是有限的，因此针对这个文集的连接创建的无效连接是可穷尽的。然而，对于“百度一下”按钮来说，由于可以存在无穷多个搜索词从而存在无穷多个搜索结果，因此针对“百度一下”这个连接创建的无效连接是不可穷尽的。用于创建的无效连接被设置为隐蔽形式，因此正常用户在浏览器中不会看到隐蔽的无效连接，因而无法发起请求，但是网络爬虫会对网页的html代码进行解析，就会将隐蔽的无效连接收录后再进行访问。对这些隐蔽的无效连接的请求就是网络爬虫请求。

因此，在步骤S104中，如果发出了对隐蔽的无效连接的请求，则这种请求将被识别为网络爬虫请求。下面，参照图2对步骤S104进行具体描述。

在步骤S201中，当服务器接收到发出的请求时，确定与发出的请求相应的连接是否设置在爬虫集合中。这里，爬虫集合Spiders可以初始设置为空集。如果与发出的请求相应的连接设置在爬虫集合中，则在步骤S202中，将发出的请求识别为网络爬虫请求。如果与发出的请求相应的连接没有设置在爬虫集合中，则在步骤S203中确定与发出的请求相应的连接是否设置在集合Ilink1中。如果与发出的请求相应的连接设置在集合Ilink1中，则在步骤S204中，将发出的请求识别为网络爬虫请求，并将与发出的请求相应的连接记录到爬虫集合Spiders中。如果与发出的请求相应的连接没有设置在集合Ilink1中，则在步骤S205中，确定与发出的请求相应的连接是否设置在集合Ilink2中。如果与发出的请求相应的连接设置在集合Ilink2中，则在步骤S206中，将发出的请求识别为网络爬虫请求，并将与发出的请求相应的连接记录到爬虫集合Spiders中。如果与发出的请求相应的连接没有设置在集合Ilink2中，则在步骤S207中，将发出的请求识别为非网络爬虫请求。

此外，通过实施本发明的实施例，可以为网页产品制作效果显著的网络爬虫识别方法，并且可以方便地了解到是否有竞争对手通过爬虫手段发起攻击或违规抓取网页内容。如果以上情况出现，也可以根据识别结果对竞争对手的请求进行屏蔽等操作。

尽管已经参照其示例性实施例具体显示和描述了本发明，但是本领域的技术人员应该理解，在不脱离权利要求所限定的本发明的精神和范围的情况下，可以对其进行形式和细节上的各种改变。

Claims

1.一种网络爬虫识别方法，包括以下步骤：

确定入口网页上能够导向后端页面的连接；

在每个确定的连接中创建新的无效连接；

将创建的无效连接设置为隐蔽形式；

当发出对隐蔽形式的无效连接的请求时，将所述请求识别为网络爬虫请求，

其中，创建新的无效连接的步骤包括：

如果一个确定的连接中存在唯一表示该连接的字段，则生成一个该字段的无效值，并用该无效值拼装进该连接中，从而创建一个无效连接；

如果一个确定的连接中不存在唯一表示该连接的字段，则在该连接中添加一个参数，从而创建一个无效连接，

其中，创建的无效连接被记为ILink_ij。

2.根据权利要求1所述的网络爬虫识别方法，其中，将创建的无效连接设置为隐蔽形式的步骤包括：在与每个确定的连接对应的页面的主模块的html代码中添加<a href＝ILink_ij style＝"display:none；"></a>形式的代码，从而将创建的无效连接设置为隐蔽形式。

3.根据权利要求2所述的网络爬虫识别方法，其中，将创建的无效连接设置为隐蔽形式的步骤还包括：如果包含<a href＝ILink_ij style＝"display:none；"></a>形式的代码的无效连接可穷尽，则将相应的无效连接记录到集合Ilink1中，如果包含<a href＝ILink_ij style＝"display:none；"></a>形式的代码的无效连接不可穷尽，则将相应的无效连接记录到集合Ilink2中。

4.根据权利要求1所述的网络爬虫识别方法，其中，添加到确定的连接中的参数彼此不同。

5.根据权利要求3所述的网络爬虫识别方法，其中，识别网络爬虫请求的步骤包括：

确定与发出的请求相应的连接是否设置在爬虫集合中；

如果与发出的请求相应的连接设置在爬虫集合中，则将发出的请求识别为网络爬虫请求；

如果与发出的请求相应的连接没有设置在爬虫集合中，则确定与发出的请求相应的连接是否设置在集合Ilink1中；

如果与发出的请求相应的连接设置在集合Ilink1中，则将发出的请求识别为网络爬虫请求，并将与发出的请求相应的连接记录到爬虫集合中；

如果与发出的请求相应的连接没有设置在集合Ilink1中，则确定与发出的请求相应的连接是否设置在集合Ilink2中；

如果与发出的请求相应的连接设置在集合Ilink2中，则将发出的请求识别为网络爬虫请求，并将与发出的请求相应的连接记录到爬虫集合中；

如果与发出的请求相应的连接没有设置在集合Ilink2中，则将发出的请求识别为非网络爬虫请求。

6.根据权利要求5所述的网络爬虫识别方法，其中，爬虫集合初始设置为空集。