CN107943949A

CN107943949A - 一种确定网络爬虫的方法及服务器

Info

Publication number: CN107943949A
Application number: CN201711191680.XA
Authority: CN
Inventors: 吴其杨; 刘豹; 孙振江; 丁伟
Original assignee: Xiamen Micro Technology Co Ltd
Current assignee: Xiamen Micro Technology Co Ltd
Priority date: 2017-11-24
Filing date: 2017-11-24
Publication date: 2018-04-20
Anticipated expiration: 2037-11-24
Also published as: CN107943949B

Abstract

本发明实施例提供一种确定网络爬虫的方法及服务器，所述方法包括：获取用户终端发送的访问信息；根据所述访问信息和第一预设规则，为所述用户终端分配目标用户界面，所述目标用户界面包括已更改的指定标签；若所述用户终端在读取已更改的指定标签后继续访问指定的访问地址，获取所述访问地址的访问次数，根据所述访问次数和第二预设规则，确定所述用户终端是否为网络爬虫。所述服务器执行上述方法。本发明实施例提供的确定网络爬虫的方法及服务器，使用户终端读取已更改的指定标签，并根据获取到的用户终端继续对指定的访问地址的访问次数，能够准确确定用户终端是否为网络爬虫，进而保护真实数据的安全。

Description

一种确定网络爬虫的方法及服务器

技术领域

本发明实施例涉及网络数据安全技术领域，具体涉及一种确定网络爬虫的方法及服务器。

背景技术

当前互联网中充斥着各种各样的网络爬虫，无时无刻地盗取服务器中的数据。

现有技术中，一种方法通过获取单位时间内网络爬虫的访问次数，对访问次数较多的疑似网络爬虫的访问权限进行限制；另一种方法通过某种算法来识别非浏览请求，进而通过限制非浏览请求的用户终端的访问权限，来保证数据不被非法获取。但是对于第一种方法：访问次数的阈值难以合理设定，有时会影响正常用户的访问，例如：在网络情况不好时，正常用户多次点击造成的单位时间内的多次访问。对于第二种方法：由于模拟浏览技术的发展，例如：selenium、phantomjs，也造成识别网络爬虫不够准确的问题。

因此，如何避免上述方法的缺陷，并能够准确确定用户终端是否为网络爬虫，进而保护数据的安全，成为亟须解决的问题。

发明内容

针对现有技术存在的问题，本发明实施例提供一种确定网络爬虫的方法及服务器。

第一方面，本发明实施例提供一种确定网络爬虫的方法，所述方法包括：

获取用户终端发送的访问信息；

根据所述访问信息和第一预设规则，为所述用户终端分配目标用户界面，所述目标用户界面包括已更改的指定标签；

若所述用户终端在读取已更改的指定标签后继续访问指定的访问地址，获取所述访问地址的访问次数，根据所述访问次数和第二预设规则，确定所述用户终端是否为网络爬虫。

第二方面，本发明实施例提供一种确定网络爬虫的服务器，所述服务器包括：

获取模块，用于获取用户终端发送的访问信息；

分配模块，用于根据所述访问信息和第一预设规则，为所述用户终端分配目标用户界面，所述目标用户界面包括已更改的指定标签；

确定模块，用于若判断获知所述用户终端在读取已更改的指定标签后继续访问指定的访问地址，获取所述访问地址的访问次数，根据所述访问次数和第二预设规则，确定所述用户终端是否为网络爬虫。

第三方面，本发明实施例提供另一种确定网络爬虫的服务器，包括：处理器、存储器和总线，其中，

所述处理器和所述存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如下方法：

获取用户终端发送的访问信息；

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，包括：

所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如下方法：

获取用户终端发送的访问信息；

本发明实施例提供的确定网络爬虫的方法及服务器，使用户终端读取已更改的指定标签，并根据获取到的用户终端继续对指定的访问地址的访问次数，能够准确确定用户终端是否为网络爬虫，进而保护真实数据的安全。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例确定网络爬虫的方法流程示意图；

图2为本发明实施例与黑名单、验证码识别等技术相结合的确定网络爬虫的方法总流程图；

图3为本发明实施例确定网络爬虫的服务器结构示意图；

图4为本发明实施例提供的服务器实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例确定网络爬虫的方法流程示意图，如图1所示，本发明实施例提供的一种确定网络爬虫的方法，包括以下步骤：

S1：获取用户终端发送的访问信息。

具体的，服务器获取用户终端发送的访问信息。访问信息可以是对服务器的访问信息，该访问信息可以包括用户名、IP、地区等用户的身份信息和位置信息。

S2：根据所述访问信息和第一预设规则，为所述用户终端分配目标用户界面，所述目标用户界面包括已更改的指定标签。

具体的，服务器根据所述访问信息和第一预设规则，为所述用户终端分配目标用户界面，所述目标用户界面包括已更改的指定标签。用户界面即UI，可以是显示给网络访问用户的显示界面。指定标签可以是CSS标签，可以将访问信息中的用户名、IP，地区等一个或多个输入预设模型，以获取模型输出参数。模型输出参数可以是对上述一个或多个用户名、IP，地区进行解析，并通过加密算法得到的具有较高安全性的标识信息，该标识信息可以为字母、数字等一种或多种、或字母与数字的组合。根据预先建立的模型输出参数与用户界面库中的用户界面标识之间的映射关系、以及所述模型输出参数，为所述用户终端分配目标用户界面。举例说明如下：将访问信息中的IP(可以是多个，以IP为例)输入预设模型，由于IP由数字组成，预设模型对IP进行解析、加密，可以得到较长的数字，可以选择该较长的数字中的末尾一位或多位作为标识信息(这里举例为末尾一位，数值为3)，如果用户界面库中有10个用户界面，分别用UI0～UI9，预先建立的映射关系可以为标识信息0对应UI0、标识信息1对应UI1等等。参照上述举例标识信息为3对应的目标用户界面为UI3(目标用户界面)。还可以采用如下方式对预先建立的用户界面库进行维护：不定期的往用户界面库中增加和/或删除用户界面。

S3：若所述用户终端在读取已更改的指定标签后继续访问指定的访问地址，获取所述访问地址的访问次数，根据所述访问次数和第二预设规则，确定所述用户终端是否为网络爬虫。

具体的，服务器若判断获知所述用户终端在读取已更改的指定标签后继续访问指定的访问地址，获取所述访问地址的访问次数，根据所述访问次数和第二预设规则，确定所述用户终端是否为网络爬虫。需要说明的是：由于正常用户(非网络爬虫)的访问不涉及对所有标签的访问(更不涉及CSS标签)，因此更改后的指定标签对于正常用户(非网络爬虫)的访问没有影响，但是网络爬虫通过读取指定标签的方式获取隐私信息，如果指定标签被更改，，作为网络爬虫的用户终端将已更改的指定标签获取到本地进行解析处理，必然会导致解析错误，但是作为网络爬虫的用户终端不易快速察觉到解析错误是由于指定标签已被更改所引起的，在一定时段内还继续频繁地对该服务器的IP地址(对应指定的访问地址)进行访问。若在第一预设时段内访问次数大于第一预设次数门限值，确定所述用户终端为网络爬虫。第一预设时段和第一预设次数门限值可根据实际情况自主设置。即将在一定时段内频繁地访问该服务器的IP地址的用户终端确定为网络爬虫。

本发明实施例提供的确定网络爬虫的方法，使用户终端读取已更改的指定标签，并根据获取到的用户终端继续对指定的访问地址的访问次数，能够准确确定用户终端是否为网络爬虫，进而保护真实数据的安全。

在上述实施例的基础上，所述指定标签为CSS标签。

具体的，服务器中的所述指定标签为CSS标签。可参照上述实施例，不再赘述。

本发明实施例提供的确定网络爬虫的方法，通过将指定标签选定为CSS标签，便于指定标签的更改。

在上述实施例的基础上，所述根据所述访问信息和第一预设规则，为所述用户终端分配目标用户界面，包括：

将所述访问信息输入预设模型，以获取模型输出参数。

具体的，服务器将所述访问信息输入预设模型，以获取模型输出参数。可参照上述实施例，不再赘述。

根据预先建立的模型输出参数与用户界面库中的用户界面标识之间的映射关系、以及所述模型输出参数，为所述用户终端分配目标用户界面，其中，所述用户界面库包括预先更改的指定标签。

具体的，服务器根据预先建立的模型输出参数与用户界面库中的用户界面标识之间的映射关系、以及所述模型输出参数，为所述用户终端分配目标用户界面，其中，所述用户界面库包括预先更改的指定标签。可参照上述实施例，不再赘述。

本发明实施例提供的确定网络爬虫的方法，通过模型输出参数灵活切换目标用户界面，使得目标用户界面能够随机变化，不易被破解。

在上述实施例的基础上，所述若所述用户终端在读取已更改的指定标签后继续访问指定的访问地址，获取所述访问地址的访问次数，根据所述访问次数和第二预设规则，确定所述用户终端是否为网络爬虫，包括：

若在第一预设时段内所述访问次数大于第一预设次数门限值，确定所述用户终端为网络爬虫。

具体的，服务器若判断获知在第一预设时段内所述访问次数大于第一预设次数门限值，确定所述用户终端为网络爬虫。可参照上述实施例，不再赘述。

本发明实施例提供的确定网络爬虫的方法，通过在第一预设时段内判断对指定的访问地址的访问次数，进一步能够准确确定用户终端是否为网络爬虫，进而保护真实数据的安全。

在上述实施例的基础上，所述访问信息包括有序的访问行为信息，相应地；所述方法还包括：

若判断获知在第二预设时段内所述访问行为信息的访问顺序相同、且访问次数大于第二预设次数门限值，确定所述用户终端为网络爬虫。

具体的，服务器若判断获知在第二预设时段内所述访问行为信息的访问顺序相同、且访问次数大于第二预设次数门限值，确定所述用户终端为网络爬虫。第二预设时段和第二预设次数门限值可根据实际情况自主设置，第一预设时段和第二预设时段之间的数值大小关系不作具体限定。第一预设次数门限值和第二预设次数门限值之间的数值大小关系不作具体限定。需要说明的是：被用户访问的服务器通常按照多模块设计，每个模块可以由内部编号进行区分，数据分布式的显示在每个模块，并且每个模块不宜显示过多数据。这样设计更加有利于区分正常用户和网络爬虫，举例如下：搜索关键词A，查询出的有关关键词A的搜索结果分布在内部编号1～10，共计10个模块，正常用户有序的访问行为信息随意性较大，例如：可以按照如下顺序：内部编号1-内部编号2-内部编号3-内部编号10-内部编号9，也可以不全部访问上述的10个模块，而网络爬虫有序的访问行为信息通常按照固有的顺序，例如：可以按照如下顺序：内部编号1-内部编号2-内部编号3….内部编号10，且通常全部访问上述的10个模块。进一步地，正常用户在单位时间段内，不会重复上述：内部编号1-内部编号2-内部编号3-内部编号10-内部编号9的顺序，而网络爬虫在单位时间段内，通常会重复上述：内部编号1-内部编号2-内部编号3….内部编号10的顺序，且频次较高。基于正常用户与网络爬虫的上述区别行为，本发明实施例将在第二预设时段内访问行为信息的访问顺序相同、且访问次数大于第二预设次数门限值的用户终端确定为网络爬虫。

本发明实施例提供的确定网络爬虫的方法，通过在第二预设时段内判断访问行为信息的访问顺序和访问次数，进一步能够准确确定用户终端是否为网络爬虫，进而保护真实数据的安全。

在上述实施例的基础上，所述确定所述用户终端是否为网络爬虫的步骤之后，所述方法还包括：

生成虚假数据，并将所述虚假数据发送至被确定为网络爬虫的用户终端。

具体的，服务器生成虚假数据，并将所述虚假数据发送至被确定为网络爬虫的用户终端。为了使被确定为网络爬虫的用户终端不易察觉，该虚假数据可以采用与真实数据相同的数据格式、数据类型等。

本发明实施例提供的确定网络爬虫的方法，通过向被确定为网络爬虫的用户终端发送虚假数据，使得被确定为网络爬虫的用户终端不易察觉。

在上述实施例的基础上，所述虚假数据是从数据库中随机获取的。

具体的，服务器中的所述虚假数据是从数据库中随机获取的。该数据库可以是服务器中的存储真实数据的数据库，为了进一步防止被破解，还可以通过随机算法方式等实现随机获取虚假数据。

本发明实施例提供的确定网络爬虫的方法，通过从数据库中随机获取虚假数据并发送，使得被确定为网络爬虫的用户终端更加不易察觉。

图2为本发明实施例与黑名单、验证码识别等技术相结合的确定网络爬虫的方法总流程图，需要说明的是：本发明实施例确定网络爬虫的方法还可以与存储有网络爬虫的黑名单、验证码识别等技术相结合，进一步准确地确定网络爬虫，方法可以如下：

(1)获取用户终端发送的访问信息，所述访问信息携带有用户身份标识。

(2)查找存储有已确定为网络爬虫的黑名单中是否有该用户身份标识，如果有，在该用户终端的显示界面生成验证码，以使该用户终端向服务器发送针对验证码的反馈消息，若服务器在第三预设时段内没有接收到反馈消息，或者在第四预设时段内接收到的反馈消息中的对验证码的验证错误次数超过预设值，生成虚假数据，并发送至该用户终端。

(3)如果没有，在单位时间内判断访问次数是否超过预设阈值，如果超过，则跳转到步骤(2)中在该用户终端的显示界面生成验证码的步骤。

(4)如果没超过，则执行上述本发明实施例中有序的访问行为信息的判断步骤，若满足有序的访问行为信息的判断步骤，则跳转到步骤(2)中在该用户终端的显示界面生成验证码的步骤。

(5)上述步骤(2)中若检测到验证码正确，执行步骤(4)中通过有序的访问行为信息的判断步骤。

(6)若不满足有序的访问行为信息的判断步骤，继续执行上述本发明实施例根据对指定的访问地址的访问次数的判断步骤，若满足根据访问次数的判断步骤，则跳转到步骤(2)中在该用户终端的显示界面生成验证码的步骤。

(7)若不满足根据访问次数的判断步骤，则确定为该用户终端不是网络爬虫。

图3为本发明实施例确定网络爬虫的服务器结构示意图，如图3所示，本发明实施例提供了一种确定网络爬虫的服务器，包括获取模块1、分配模块2和确定模块3，其中：

获取模块1用于获取用户终端发送的访问信息；分配模块2用于根据所述访问信息和第一预设规则，为所述用户终端分配目标用户界面，所述目标用户界面包括已更改的指定标签；确定模块3用于若判断获知所述用户终端在读取已更改的指定标签后继续访问指定的访问地址，获取所述访问地址的访问次数，根据所述访问次数和第二预设规则，确定所述用户终端是否为网络爬虫。

具体的，获取模块1用于获取用户终端发送的访问信息；分配模块2用于根据所述访问信息和第一预设规则，为所述用户终端分配目标用户界面，所述目标用户界面包括已更改的指定标签；确定模块3用于若判断获知所述用户终端在读取已更改的指定标签后继续访问指定的访问地址，获取所述访问地址的访问次数，根据所述访问次数和第二预设规则，确定所述用户终端是否为网络爬虫。

本发明实施例提供的确定网络爬虫的服务器，使用户终端读取已更改的指定标签，并根据获取到的用户终端继续对指定的访问地址的访问次数，能够准确确定用户终端是否为网络爬虫，进而保护真实数据的安全。

本发明实施例提供的确定网络爬虫的服务器具体可以用于执行上述各方法实施例的处理流程，其功能在此不再赘述，可以参照上述方法实施例的详细描述。

图4为本发明实施例提供的服务器实体结构示意图，如图4所示，所述服务器包括：处理器(processor)401、存储器(memory)402和总线403；

其中，所述处理器401、存储器402通过总线403完成相互间的通信；

所述处理器401用于调用所述存储器402中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：获取用户终端发送的访问信息；根据所述访问信息和第一预设规则，为所述用户终端分配目标用户界面，所述目标用户界面包括已更改的指定标签；若所述用户终端在读取已更改的指定标签后继续访问指定的访问地址，获取所述访问地址的访问次数，根据所述访问次数和第二预设规则，确定所述用户终端是否为网络爬虫。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：获取用户终端发送的访问信息；根据所述访问信息和第一预设规则，为所述用户终端分配目标用户界面，所述目标用户界面包括已更改的指定标签；若所述用户终端在读取已更改的指定标签后继续访问指定的访问地址，获取所述访问地址的访问次数，根据所述访问次数和第二预设规则，确定所述用户终端是否为网络爬虫。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：获取用户终端发送的访问信息；根据所述访问信息和第一预设规则，为所述用户终端分配目标用户界面，所述目标用户界面包括已更改的指定标签；若所述用户终端在读取已更改的指定标签后继续访问指定的访问地址，获取所述访问地址的访问次数，根据所述访问次数和第二预设规则，确定所述用户终端是否为网络爬虫。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的服务器等实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上各实施例仅用以说明本发明的实施例的技术方案，而非对其限制；尽管参照前述各实施例对本发明的实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。

Claims

1.一种确定网络爬虫的方法，其特征在于，包括：

获取用户终端发送的访问信息；

2.根据权利要求1所述的方法，其特征在于，所述指定标签为CSS标签。

3.根据权利要求1所述的方法，其特征在于，所述根据所述访问信息和第一预设规则，为所述用户终端分配目标用户界面，包括：

将所述访问信息输入预设模型，以获取模型输出参数；

4.根据权利要求1所述的方法，其特征在于，所述若所述用户终端在读取已更改的指定标签后继续访问指定的访问地址，获取所述访问地址的访问次数，根据所述访问次数和第二预设规则，确定所述用户终端是否为网络爬虫，包括：

5.根据权利要求1所述的方法，其特征在于，所述访问信息包括有序的访问行为信息，相应地；所述方法还包括：

6.根据权利要求1至5任一所述的方法，其特征在于，所述确定所述用户终端是否为网络爬虫的步骤之后，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述虚假数据是从数据库中随机获取的。

8.一种确定网络爬虫的服务器，其特征在于，包括：

获取模块，用于获取用户终端发送的访问信息；

9.一种确定网络爬虫的服务器，其特征在于，包括：处理器、存储器和总线，其中，

所述处理器和所述存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至7任一所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至7任一所述的方法。