CN102088477A

CN102088477A - 网站内容防采集系统和方法

Info

Publication number: CN102088477A
Application number: CN2010105666792A
Authority: CN
Inventors: 潘海东; 梅春; 孟凡斌
Original assignee: Interactive Online (beijing) Technology Co Ltd
Current assignee: Interactive Online (beijing) Technology Co Ltd
Priority date: 2010-11-25
Filing date: 2010-11-25
Publication date: 2011-06-08

Abstract

本发明提供一种网站内容防采集系统和方法。本发明的网站内容防采集系统包括：获取单元，用于获取用户的ID，IP地址，User-Agent和当前时间；查询单元，用于查询用户在预定时间段内对网站页面的访问量；比较单元，用于将所述记录的用户在预定时间段内对网站页面的访问量与设定值进行比较，禁止单元，当用户在预定时间段内对网站页面的访问量大于设定值时，禁止该用户对网站的访问。根据本发明的方法可以在不修改网页内容的情况下防止网页内容被采集。

Description

网站内容防采集系统和方法

技术领域

本发明涉及互联网中网站内容的采集复制技术，更具体地，本发明涉及一种网站内容防采集方法。

背景技术

本文中所提到的术语“采集”，是指程序按照指定的规则定向获取其他网站数据的一种方式。网络采集器是用来批量采集例如网页和论坛等的内容，将所采集的内容直接保存到数据库或发布到网站的一种工具，它从目标网页中摘取某些数据形成统一的本地数据库。例如，互联网中新建立的网站，往往需要大量的数据充实其网站内容。在这种情况下，一些网站管理人员可能利用网络采集器快速且大量地复制其他网站内容，借助采集快速充实其自己的网站。但是这种操作对被采集网站尤其是以原创内容为主的网站来说，一方面占用了被采集网站大量的网络资源，降低了网络的运行速度和运行效率；另一方面也侵犯了被采集网站的知识产权，因而损害被采集网站的利益。为了限制网站内容被他人采集，防采集技术应运而生。

目前常见的防采集技术是在网站的各网页内容中使用混淆字符串。这种技术通过在网页内容中随机添加一些字符串实现。这些字符串在正常状态下例如普通用户在浏览网页时是不可见的。但在网页内容被采集之后，混淆字符串就会在采集到的网页中显示出来。这样采集到的内容是混有混淆字符串的内容，不符合采集者的要求，从而实现防采集的目的。

但是，这种在网站的各网页内容中使用混淆字符串实现防采集的方法有几种固有的缺陷。首先，在网页内容中添加的随机字符串，虽然对于普通访客来说是不可见的，但对于索引网页内容的搜索引擎机器人来说，是可见内容。这导致在搜索引擎的搜索结果中显示网页内容时，可能会出现添加的随机字符串。同时由于某网站的网页内容中混杂了无意义的随机字符串，有可能导致该网站在搜索引擎的搜索结果中排名靠后，不利于网站的推广和访问量的提升。其次，采集者如果不太在意自己网站的网页内容质量，网页内容中添加的随机字符串就起不到防采集的作用，也无法从根本上解决网页内容被采集的问题。

现有的防采集技术通过添加混淆字符串修改了网页内容，破坏了网站对搜索引擎的友好度。同时它是一种被动的防采集措施，虽然添加了随机字符串，但在采集者对所采集内容质量要求不高的情况下，依然可以被任意采集。

因此，需要一种不修改网页内容防止网页内容被采集的方法。

发明内容

本发明通过识别网站访问者是普通用户还是采集器而防止网站的网页内容被采集。

本发明提供一种网站内容防采集系统，该系统包括：

获取单元，用于获取用户的ID，IP地址，User-Agent和当前时间；

查询单元，用于查询用户在预定时间段内对网站页面的访问量；

比较单元，用于将所述记录的用户在预定时间段内对网站页面的访问量与设定值进行比较，

禁止单元，当用户在预定时间段内对网站页面的访问量大于设定值时，禁止该用户对网站的访问。

优选地，该网站内容防采集系统进一步包括：

存储单元，用于存储IP地址白名单和IP地址黑名单；和

判断单元，如果所获取的用户的IP地址属于IP地址白名单，则该用户对网站的访问被允许；如果所获取的用户的IP地址属于IP地址黑名单，则该用户对网站的访问被禁止。

优选地，所述IP地址白名单包括搜索引擎的IP地址。

本发明提供一种网站内容防采集方法，该方法包括：

获取用户的ID，IP地址，User-Agent和当前时间；

对用户在预定时间段内访问的网站页面进行计数获得该预定时间段的用户访问量；

将该访问量与设定值进行比较；

如果该访问量大于设定值时，则禁止该用户对网站的访问。

优选地，在所述获取用户的IP地址步骤之后，

如果所获取的用户的IP地址属于IP地址白名单，则允许该用户对网站的访问；

如果所获取的用户的IP地址属于IP地址黑名单，则禁止该用户对网站的访问。

优选地，该方法进一步包括将搜索引擎的IP地址放入IP地址白名单列表。

优选地，将被禁止用户的IP地址放入IP地址黑名单列表。

优选地，该预定时间段为1-600秒，设定值的数值为预定时间段秒数的1-50倍。

由于采集是一种通过快速复制其他网站的网页内容获取其他网站数据的方法，采集器在执行采集时，会快速密集的访问网站页面，访问频率例如可达到每分钟120页甚至更多。相反，普通用户在浏览网站时，一般情况下不会达到这么高的访问频率。通过这种差异，就可以识别采集器的访问，从而限制采集器继续获取网站内容。

根据本发明的网站内容防采集方法通过利用不同于通过添加混淆字符串实现防采集的原理，解决了目前防采集技术存在的缺陷。根据本发明的网站内容防采集方法不对网站内容做任何修改，不会影响搜索引擎的索引。同时，由于此方法可以区分网站访问者是普通用户还是采集器，通过限制采集器对网站的访问，从根本上解决了网站内容被大量采集的问题。

附图说明

下面参照附图并结合实施例对本发明进行详细说明，其中，

图1示出根据本发明优选实施例的系统的框图；

图2示出根据本发明一个优选实施例的方法流程图；

图3示出根据本发明另一个优选实施例的方法流程图。

具体实施方式

图1示出根据本发明优选实施例的网站内容防采集系统100的结构框图。该系统包括：获取单元，用于获取用户的ID，IP地址，User-Agent和当前时间；查询单元，用于查询用户在预定时间段内对网站页面的访问量；比较单元，用于将所述记录的用户在预定时间段内对网站页面的访问量与设定值进行比较；和禁止单元，用于当用户在预定时间段内对网站页面的访问量大于设定值时，禁止该用户对网站的访问。

网站内容防采集系统的获取单元可以在收到每次访问请求时记录访问者的ID，IP地址、用户代理(User-Agent)及访问时间。在访问者通过浏览器程序如Internet Explorer，或通过采集器程序访问网站时，访问者的浏览器程序或采集器程序通常会向网站发送一段用来描述自己身份的字符串，这段字符串被称为User-Agent。用户使用的不同的软件通常会发送不同的User-Agent。通过将访问者的IP地址和User-Agent组合，网站可以识别和区分每一个访问者。查询单元查询当前访问者在单位时间段内访问的网站页面的数量即访问量。比较单元将查询单元查询到的该用户的访问量和设定的访问量相比较，如果在单位时间段内的页面访问量超过设定的访问量，即可判定该访问者的访问属于非正常访问。禁止单元可以禁止该访问者对网站的该非正常访问。

单位时间段和单位时间段内的页面访问量的设定值是两个可以在网站程序配置中分别修改的变量。单位时间段可设置为例如10-600秒之间。单位时间段设置过短可能导致普通用户的访问被误判为非正常访问，单位时间段设置过长则可能导致在设置的时间段里采集器已经采集了大量数据后网站才检测到当前的访问是采集器的访问。由于采集器在执行采集时通常有每秒钟1页至50页的频率，因此单位时间段内的页面访问量的数值可设置为所选择以秒为单位的单位时间段的1-50倍。例如，可以将单位时间段设置为60秒，将该单位时间段内页面访问量的设定值设置为600页。由于采集器的采集速度受网速及网站响应速度等多种因素的影响，具体的单位时间段和单位时间段内的页面访问量应允许网站管理员根据实际情况进行设置。

另外，根据本发明的网站内容防采集系统可进一步包括用于存储IP地址白名单和IP地址黑名单的存储单元，和判断单元，该判断单元用于判断用户的地址是否属于IP白地址或属于IP黑地址，如果属于IP白地址，则用户对网站的访问被允许，如果属于IP黑地址，则用户对网站的访问被禁止。由于搜索引擎在索引网站数据时也可能出现较高的访问频率，为防止搜索引擎的索引操作被误判为采集，根据本发明的网站内容防采集系统可提供IP地址白名单功能，将常见搜索引擎的IP地址或IP地址段加入IP地址白名单。来自这些IP地址的访问将绕过访问频率的判断，不受访问量设定值的限制。进一步，根据本发明的网站内容防采集系统可提供IP地址黑名单功能，将常见的采集器IP地址加入IP地址黑名单。来自这些IP地址的访问将绕过访问频率的判断，直接被禁止。

图2示出根据明一个优选实施例的方法流程图。根据该实施例的网站内容防采集方法，包括以下步骤：获取用户的ID，IP地址，User-Agent和当前时间；对用户在预定时间段内访问的网站页面进行计数获得该预定时间段的用户访问量；将该访问量与设定值进行比较；如果该访问量大于设定值时，则禁止该用户对网站的访问。

图3示出根据本发明另一个优选实施例的方法流程图。由于搜索引擎在索引网站数据时也可能出现较高的访问频率，为防止搜索引擎的索引操作被误判为采集，根据本发明的网站内容防采集系统可提供IP地址白名单功能，将常见搜索引擎的IP地址或IP地址段加入IP地址白名单。来自这些IP地址的访问将绕过访问频率的判断，不受访问量设定值的限制。图3所示方法不同于图2所示方法步骤之处在于，在所述获取用户的IP地址步骤之后，首先判断该用户IP地址是否属于IP地址白名单，如果属于，则允许该用户对网站的访问。如果不属于，则判断该用户IP地址是否属于IP地址黑名单。如果属于，则禁止该用户对网站的访问。如果不属于，则如图2所示，继续查询该用户对网站页面的访问数量的步骤。

下面以PHP+MySQL的开发环境为例说明实施方法，其他语言类似：

数据库：

可通过下列SQL语句建立数据表：

CREATE TABLE`visitlist`(

`id`INT(10) NOT NULL AUTO_INCREMENT PRIMARY KEY，

`ip`VARCHAR(40)NOT NULL DEFAULT″，

`useragent`VARCHAR(255)NOT NULL DEFAULT″，

`time`INT(10)NOT NULL DEFAULT′0′

)ENGINE＝MYISAM；

数据表中有4个字段：id，ip，useragent，time分别表示记录ID，用户IP，用户User-Agent，访问时间。

主要的程序代码说明：

获取用户IP、User-Agent信息：

程序首先要获取用户的IP、User-Agent，及当前时间信息，代码如下：

$ip＝$_SERVER[′REMOTE_ADDR′]；

$useragent＝$_SERVER[′HTTP_USER_AGENT′]；

$time＝time()；//time()函数返回以秒为单位的当前UNIX时间戳

然后，将以上数据存入数据库。代码如下：

mysql_query(″INSERT INTO visitlist(`ip`，`useragent`，`time`)values(′$ip′，′$useragent′，′$time′)″)；

查询当前用户在单位时间段内访问的页面数：

假设单位时间段是一个网站管理员已经设置好的常量：

define(′DURATION′，60)；

$time_start＝time()-DURATION；//通过当前时间减去设置的时间段，就是计数开始时间

$query＝mysql_query(″SELECT COUNT(*)AS visit_count FROM visitlistWHERE`time`＞$time_start AND`ip`＝′{$this-＞base-＞ip}′AND`useragent`＝′{$useragent}″′)；

$row＝mysql_fetch_array($query)；

$visit_count＝isset($row[′visit_count′])？$row[′vist_count′]:0；

判断单位时间段内访问的页面数是否大于设定值，并处理最终结果：

假设单位时间段内访问的页面数是一个网站管理员已经设置好的常量：

define(′MAX_PAGES′，300)；

if($visit_count＞MAX_PAGES){

exit(′访问频率过高，禁止访问′)；//此处也可以将访问者的IP地址加入网站IP黑名单列表，可以更有效的禁止用户访问。

}

应当理解，以上借助本发明的优选实施例本发明的技术方案进行了详细说明，应当理解，以上说明是示意性的而非限制性的。本领域的普通技术人员在阅读本发明说明书的基础上可以对各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。本发明的保护范围仅由随附权利要求书限定。

Claims

1.一种网站内容防采集系统，其特征在于，该系统包括：

2.根据权利要求1的网站内容防采集系统，其特征在于，该预定时间段为1-600秒，该设定值的数值为预定时间段秒数的1-50倍。

3.根据权利要求1的网站内容防采集系统，其特征在于，该系统进一步包括：

存储单元，用于存储IP地址白名单和IP地址黑名单；和

4.根据权利要求3的网站内容防采集系统，其特征在于，所述IP地址白名单包括搜索引擎的IP地址。

5.一种网站内容防采集方法，其特征在于，该方法包括：

获取用户的ID，IP地址，User-Agent和当前时间；

将该访问量与设定值进行比较；

如果该访问量大于设定值时，则禁止该用户对网站的访问。

6.根据权利要求5的网站内容防采集方法，其特征在于，该预定时间段为1-600秒，设定值的数值为预定时间段秒数的1-50倍。

7.根据权利要求5的网站内容防采集方法，其特征在于，在所述获取用户的IP地址步骤之后，

如果所获取的用户的IP地址属于IP地址白名单，则允许该用户对网站的访问。

8.根据权利要求5的网站内容防采集方法，其特征在于，在所述获取用户的IP地址步骤之后，

9.根据权利要求5的网站内容防采集方法，其特征在于，该方法进一步包括将搜索引擎的IP地址放入IP地址白名单列表。

10.根据权利要求5的网站内容防采集方法，其特征在于，将被禁止用户的IP地址放入IP地址黑名单列表。