CN110609937A

CN110609937A - 一种爬虫识别方法及装置

Info

Publication number: CN110609937A
Application number: CN201910751788.2A
Authority: CN
Inventors: 李拾萱
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-08-15
Filing date: 2019-08-15
Publication date: 2019-12-24

Abstract

本申请公开了一种爬虫识别方法和装置，其中，所述方法包括：获取第一用户对目标页面的历史访问记录；通过分析所述历史访问记录，确认所述第一用户在第一时间段内的访问信息，所述访问信息包括所述第一用户的访问次数和所述第一用户对所述目标页面的目标数据的连接量；根据所述访问信息和预设的爬虫参数，对所述第一用户进行爬虫识别，其中，所述爬虫参数包括爬虫的访问频率阈值和所述爬虫对所述目标数据的连接量阈值。采用本发明实施例，可以有效识别网络爬虫，避免重要信息的泄露。

Description

一种爬虫识别方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种爬虫识别方法及装置。

背景技术

网络时代的信息量巨大，每天都会有许多信息在产生和传输。随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。为了定向抓取相关网页资源，网络爬虫应运而生，但是，人们并不希望有些敏感信息、重要的信息被网络爬虫获取，特别是恶意爬虫，因为一般恶意爬虫都会爬取核心业务数据，造成数据泄露。目前，针对恶意的网络爬虫，一般通过采取了一定的识别手段，比如，基于用户代理(user-agent，UA)识别网络爬虫，或者基于高频访问行为识别网络爬虫。但是user-agent易于伪造，导致无法识别使用伪造user-agent的网络爬虫；而基于高频访问行为识别网络爬虫的方法无法识别长期低频访问的网络爬虫。

因此，如何有效识别网络爬虫，避免重要信息泄露，是本申请亟待解决的问题。

发明内容

本发明实施例提供一种爬虫识别方法及装置，可以有效识别网络爬虫，避免重要信息的泄露。

第一方面，本发明实施例提供了一种爬虫识别方法，该方法可包括：

获取第一用户对目标页面的历史访问记录；

通过分析所述历史访问记录，确认所述第一用户在第一时间段内的访问信息，所述访问信息包括所述第一用户的访问次数和所述第一用户对所述目标页面的目标数据的连接量；

根据所述访问信息和预设的爬虫参数，对所述第一用户进行爬虫识别，其中，所述爬虫参数包括爬虫的访问频率阈值和所述爬虫对所述目标数据的连接量阈值。

实施本发明实施例，从用户对目标页面的访问记录中，分析用户在预设时间段内对目标页面的访问次数和对目标数据的连接情况，判断其访问行为是否符合爬虫的交互特征而识别出爬虫。综合考虑用户的访问频率和对目标数据的连接情况，能够全面地识别不同类型的爬虫。区别于现有技术中只根据访问频率对爬虫进行识别，增加了对用户访问目标数据的连接情况(包括连接分布、时长以及次数等)的综合分析，例如，通过分析用户对页面数据中的基础数据和目标数据的连接分布，用户连接目标数据的时长(如单位时间的时长和总时长)以及用户对目标数据的连接次数，从数据统计的角度确定用户的访问行为是否符合爬虫的相应特征，能够准确识别短期高频访问的爬虫以及长期低频访问的爬虫对业务数据的爬取情况，提高识别异常访问的准确率，减少了业务数据泄露，保障了信息和资产的安全。其中，对离线数据(即历史访问记录)进行分析，不影响线上业务的运行和业务系统正常服务；无需了解爬虫的具体实现方式，且不局限于以用户的UA为识别依据。

在一种可能的实现方式中，所述方法还包括：接收N个页面的实时访问数据，所述N个页面包括所述目标页面，N为大于0的整数；对所述N个页面中每一个页面在数据库中创建数据表，以将每一个页面的实时访问数据存储至所述数据库中对应的数据表。

在一种可能的实现方式中，所述获取第一用户对目标页面的历史访问记录，包括：根据所述第一用户的访问标识，从所述目标页面的所有历史访问记录中筛选得到所述第一用户对应的历史访问记录。

在一种可能的实现方式中，所述第一时间段内的访问信息，包括：所述第一用户在第一时间段内每天对所述目标页面的访问信息，所述第一用户在第一时间段内每小时对所述目标页面的访问信息，以及所述第一用户在第一时间段内预设连续时长对目标页面的访问信息中的一个或者多个。

在一种可能的实现方式中，所述分析所述历史访问记录，包括：确认所述第一用户的访问频率，所述访问频率为单位时间内的访问次数；统计所述第一用户对目标数据的连接次数，以及对目标数据的连接活跃时长，所述连接量为根据所述连接次数和所述连接活跃时长计算的。

在一种可能的实现方式中，所述统计所述第一用户对目标数据的连接次数，以及对目标数据的连接活跃时长之前，还包括：判断所述访问请求是否为所述第一用户对所述目标数据进行的访问请求，若是，确认所述访问请求对应的所述第一用户对目标数据的连接活跃时长。

在一种可能的实现方式中，所述根据所述访问信息和预设的爬虫参数，对所述第一用户进行爬虫识别，包括：当所述第一用户的访问频率大于或者等于所述爬虫的访问频率，且所述第一用户对所述目标页面的目标数据的连接量大于或者等于所述爬虫对所述目标数据的连接量，判断所述第一用户为所述爬虫。

第二方面，本发明实施例提供了一种爬虫识别装置，该装置可包括：

获取单元，用于获取第一用户对目标页面的历史访问记录；

分析单元，用于通过分析所述历史访问记录，确认所述第一用户在第一时间段内的访问信息，所述访问信息包括所述第一用户的访问次数和所述第一用户对所述目标页面的目标数据的连接量；

识别单元，用于根据所述访问信息和预设的爬虫参数，对所述第一用户进行爬虫识别，其中，所述爬虫参数包括爬虫的访问频率阈值和所述爬虫对所述目标数据的连接量阈值。

在一种可能的实现方式中，所述装置还包括：存储单元，用于接收N个页面的实时访问数据，所述N个页面包括所述目标页面，N为大于0的整数；对所述N个页面中每一个页面在数据库中创建数据表，以将每一个页面的实时访问数据存储至所述数据库中对应的数据表。

在一种可能的实现方式中，所述获取单元，具体用于：根据所述第一用户的访问标识，从所述目标页面的所有历史访问记录中筛选得到所述第一用户对应的历史访问记录。

在一种可能的实现方式中，所述分析单元还包括第一分析单元，用于：

确认所述第一用户的访问频率，所述访问频率为单位时间内的访问次数；

统计所述第一用户对目标数据的连接次数，以及对目标数据的连接活跃时长，所述连接量为根据所述连接次数和所述连接活跃时长计算的。

在一种可能的实现方式中，所述分析单元还包括判断单元，用于在统计所述第一用户对目标数据的连接次数，以及对目标数据的连接活跃时长之前，判断所述访问请求是否为所述第一用户对所述目标数据进行的访问请求，若是，确认所述访问请求对应的所述第一用户对目标数据的连接活跃时长。

在一种可能的实现方式中，所述识别单元，具体用于：

当所述第一用户的访问频率大于或者等于所述爬虫的访问频率，且所述第一用户对所述目标页面的目标数据的连接量大于或者等于所述爬虫对所述目标数据的连接量，判断所述第一用户为所述爬虫。

第三方面，本发明实施例提供了一种爬虫识别设备，包括处理器和存储器，所述处理器和所述存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行第一方面所述的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行第一方面所述的方法。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。

图1是本发明实施例提供的一种爬虫识别的系统架构示意图；

图2是本发明实施例提供的一种爬虫识别方法的流程示意图；

图3是本发明实施例提供的另一种爬虫识别方法的流程示意图

图4是本发明实施例提供的一种爬虫识别应用场景的示意图；

图5是本发明实施例提供的另一种爬虫识别应用场景的示意图；

图6是本发明实施例提供的一种爬虫识别装置的结构示意图；

图7是本发明实施例提供的一种爬虫识别设备的结构示意图。

具体实施方式

本发明实施例提供一种爬虫识别方法及装置，可以有效识别网络爬虫，保护重要的信息。

本申请说明书、权利要求书和附图中出现的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。此外，术语“第一”、“第二”和“第三”等是用于区别不同的对象，而并非用于描述特定的顺序。下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

首先，对本申请中的部分用语进行解释说明，以便于本领域技术人员理解。

(1)网络爬虫，也称网页蜘蛛、网络机器人或者网页追逐者)，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

(2)统一资源定位符(Uniform Resource Locator，URL)，是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置以及浏览器应该怎么处理它。统一资源定位符不但可以确定一个资源，而且还表示出它在哪里。基本URL包含模式(或称协议)、服务器名称(或IP地址)、路径和文件名，如“协议：//授权/路径？查询”。完整的、带有授权部分的普通统一资源标志符语法看上去如下：协议：//用户名:密码@子域名.域名.顶级域名:端口号/目录/文件名.文件后缀？参数＝值#标志。

下面先对本发明实施例所基于的其中一种系统架构进行描述，本申请提出的爬虫识别方法可以应用于该系统架构。请参见图1，图1是本发明实施例提供的一种爬虫识别的系统架构示意图，如图1所示，该系统架构包含了服务器(包括服务器1、服务器2和数据库)、终端(包括终端1、终端2和终端3等)；本发明实施例中提及的终端可为手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备或其他移动终端；其中，

服务器，是提供计算服务的设备，需要响应服务请求并进行处理，具备承担服务并且保障服务的能力，一般由处理器、硬盘、内存、系统总线等构成。在网络环境下，根据服务器提供的服务类型不同，分为文件服务器、数据库服务器、应用程序服务器、WEB服务器等。在本发明实施例中，终端与目标页面所在的服务器(即服务器2)进行交互，即用户通过终端对目标页面进行访问，然后服务器2由于与终端进行交互产生访问数据。服务器2可以将访问数据存储至数据库作为历史访问记录，再由数据库上传至服务器1进行分析(方式一)，或者自身存储历史访问记录，再将历史访问记录上传至服务器1进行分析(方式二)。服务器1是本方法实施例的执行主体，用于获取前述历史访问记录，并通过分析目标页面的历史访问记录(即离线数据)来识别网络爬虫；本发明实施例对终端的数量，以及服务器与服务器、服务器与终端之间的交互方式不作限定。

终端，可以是计算机网络中处于网络最外围的设备，也可以用于信息的输入以及处理结果的输出等。也可以称为系统、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、移动终端、无线通信设备、用户代理、用户装置、可安装插件的服务设备或用户设备(user equipment，UE)。例如，终端可以是蜂窝电话、移动电话、无绳电话、智能手表、可穿戴设备(wearable device)、平板设备、会话启动协议(session initiationprotocol，SIP)电话、无线本地环路(wireless local loop，WLL)站、个人数字助手(personal digital assistant，PDA)、具备无线通信功能的手持设备、计算设备、车载通信模块、智能电表或连接到无线调制解调器的其它处理设备。在本发明实施例中，终端用于用户访问目标页面，向服务器2发送连接请求，访问请求以及上传、下载数据等。比如，用户可以通过手机、电脑等类型的终端在网站上浏览资讯、观看视频、下载文件，以及通过在网页上注册账号获得相应的操作权限，上传资源或者发表意见、建议等。

可以理解的是，图1所示的内容只是本发明实施例中的一种示例性的实施方式。本发明实施例中的系统架构可以包括但不仅限于以上系统架构。

下面结合上述系统架构和本申请中提供的一种爬虫识别方法的实施例，对本申请中提出的技术问题进行具体分析和解决。

请参见图2，图2是本发明实施例提供的一种爬虫识别方法的流程示意图，所述爬虫识别方法可以应用于爬虫识别系统(包括上述架构)。下面将结合图2，以服务器(即图1中的服务器1)为执行主体为例，从单侧进行描述，该方法可以包括以下步骤S201-步骤S203。

步骤S201：获取第一用户对目标页面的历史访问记录。

具体地，服务器从数据库或者目标页面所在的服务器获取第一用户对目标页面的历史访问记录，服务器可以通过网络或者其他连接方式获得历史访问记录。其中，目标页面为指定的某个具体的网页或者网站，第一用户为访问该目标页面的用户中的某一个具体的确定的用户；可选地，历史访问记录不是前置的实时数据而是存储的实时数据，所述存储的实时数据即离线数据。

步骤S202：通过分析所述历史访问记录，确认所述第一用户在第一时间段内的访问信息。

具体地，服务器可以对历史访问记录处理之后，获得关于第一用户的访问信息。历史访问记录可以包括第一用户访问目标页面时的UA、地址IP、访问时间、访问总时长、访问频率和获取数据的类型等内容。所述访问信息包括所述第一用户的访问次数和所述第一用户对所述目标页面的目标数据的连接量；其中，目标数据可以为预设区域内的数据信息，如产品的价格以及制造技术，也可以是指定内容的数据信息，如姓名、联系电话等。可选地，服务器可以通过Splunk或者Hadoop等数据分析工具，进行离线分析，不会对线上业务造成影响。

步骤S203：根据所述访问信息和预设的爬虫参数，对所述第一用户进行爬虫识别。

具体地，服务器通过历史访问记录获得第一用户的访问信息，将预设的爬虫参数与访问信息进行对比，对第一用户进行爬虫识别。其中，所述爬虫参数包括爬虫的访问频率阈值和所述爬虫对所述目标数据的连接量阈值。可选地，所述爬虫参数为根据大数据统计或者通过机器学习而确定的。例如：在基于离线数据的爬虫识别过程中，可以对访问信息中的访问频率和对目标数据的访问进行加权综合考虑，从多个方面对第一用户的访问行为进行爬虫识别。或者基于爬虫参数，通过机器学习的方式对获取的访问信息进行恶意爬虫行为识别，甄别爬虫行为和疑似爬虫的用户进行进一步地拦截。

下面结合上述系统架构和本申请中提供的另一种爬虫识别方法的实施例，对本申请中提出的技术问题进行具体分析和解决。

请参见图3，图3是本发明实施例提供的另一种爬虫识别方法的流程示意图，所述爬虫识别方法可以应用于爬虫识别系统(包括上述架构)。下面将结合图3，以服务器(即图1中的服务器1)为执行主体为例，从单侧进行描述，该方法可以包括以下步骤S301-步骤S305；其中，可选的步骤可以包括步骤S304和步骤S305。

步骤S301：获取第一用户对目标页面的历史访问记录。

具体地，请参见前述步骤S201的描述。

在一种可能的实现方式中，所述获取第一用户对目标页面的历史访问记录，包括：根据所述第一用户的访问标识，从所述目标页面的所有历史访问记录中筛选后得到所述第一用户对应的历史访问记录。例如，在服务器获取了目标页面的所有访问记录之后，根据第一用户的IP或者其他第一用户的访问特征，从所有的访问记录中筛选并获取第一用户对目标页面的历史访问记录。

步骤S302：通过分析所述历史访问记录，确认所述第一用户在第一时间段内的访问信息。

具体地，请参见前述步骤S202的描述。

在一种可能的实现方式中，所述分析所述历史访问记录，包括：确认所述第一用户的访问频率，所述访问频率为单位时间内的访问次数；统计所述第一用户对目标数据的连接次数，以及对目标数据的连接活跃时长，所述连接量为根据所述连接次数和所述连接活跃时长计算的。例如，服务器主要针对第一用户的交互特征建立模型分析，确定第一用户在预设时间段内对目标页面的访问次数，以及第一用户对目标页面的核心数据或者核心业务数据(即目标数据)的连接情况(即连接量)，连接情况通过基础数据访问情况和连接分布而反映。基础数据访问情况可以包括核心URL连接数量、数据总连接数量和连接活跃时长。连接分布可以包括核心URL连接比(即核心URL连接数量/数据总连接数量)、核心URL最大连接数量、以及核心URL有效时间平均连接数量。其中，核心URL连接比反映第一用户的总访问量中访问核心业务数据的情况；核心URL有效时间平均连接数量反映在单个活跃时长内，第一用户对核心URL的访问量；核心数据通常由指定接口提供，所以这部分由指定接口提供的数据定义为核心数据，对应的接口调用数量可以定义为核心URL连接数量，因而核心URL最大连接数量反映在预设时间段内第一用户对目标页面核心URL连接次数的最大值。

在一种可能的实现方式中，所述统计所述第一用户对目标数据的连接次数，以及对目标数据的连接活跃时长之前，还包括：判断所述访问请求是否为所述第一用户对所述目标数据进行的访问请求，若是，确认所述访问请求对应的所述第一用户对目标数据的连接活跃时长。其中，连接活跃时长是指，发生连接的小时数或天数。比如过去14天中5天访问了目标页面或者系统，那么活跃天数为5天。例如：服务器判断第一用户发送的访问请求对象是否为业务核心数据，在确认该请求是对业务核心数据的访问请求后，确认该访问对业务核心数据的连接活跃时长。在对历史访问记录的分析结束之后，会得到第一用户对目标页面的核心业务数据的访问次数和访问时长。

在一种可能的实现方式中，所述第一时间段内的访问信息，包括：所述第一用户在第一时间段内每天对所述目标页面的访问信息，所述第一用户在第一时间段内每小时对所述目标页面的访问信息，以及所述第一用户在第一时间段内预设连续时长对目标页面的访问信息中的一个或者多个。例如：为了获得第一用户对目标页面的交互特征，可以获取以下三个类型的交互记录(即历史访问记录)：当天(即服务器执行本方法实施例的那一天)或者某一天交互记录、过去14天(即从服务器执行本方法实施例往前开始推算的一定天数)交互记录、每小时(即在指定时间段内的每个小时)交互记录。服务器可以通过对历史访问记录的划分，来监测用户在不同时段和长时间的操作行为分布。

步骤S303：根据所述访问信息和预设的爬虫参数，对所述第一用户进行爬虫识别。

具体地，请参见前述步骤S203的描述。

在一种可能的实现方式中，所述根据所述访问信息和预设的爬虫参数，对所述第一用户进行爬虫识别，包括：当所述第一用户的访问频率大于或者等于所述爬虫的访问频率，且所述第一用户对所述目标页面的目标数据的连接量大于或者等于所述爬虫对所述目标数据的连接量，判断所述第一用户为所述爬虫。例如：根据爬虫行为的访问特征(如：短时间、高频访问核心URL爬取数据；长时间、低频访问规避系统的检测而爬取数据。)中的访问频率阈值和目标数据连接分布(如：连接量阈值)，对第一用户的访问信息中访问频率和连接量进行识别，可以通过对比数值之间的差别或者基于对第一用户对应的数据不同维度给第一用户进行综合评分，得到最后的识别结果，即判断出第一用户在预设时间段内的行为是否符合恶意爬虫行为。

步骤S304：接收N个页面的实时访问数据。

具体地，服务器分别与N个页面所在的N个服务器建立通信连接，可以直接从目标页面所在服务器获取N个页面的实时访问数据，所述N个页面包括所述目标页面，N为大于0的整数。其中，实时访问数据是某时刻用户与页面交互产生的数据，反映该时刻用户的访问行为，与前述的离线数据相对。可选地，某个时刻，服务器接收多个页面的即时访问数据，进行后续的相应的存储和管理。

步骤S305：对所述N个页面中每一个页面在数据库中创建数据表，以将每一个页面的实时访问数据存储至所述数据库中对应的数据表。

具体地，服务器可以通过自身建立的数据库存储N个页面的历史访问记录，基于数据库中的数据表对N个页面进行分类管理和存储，或者服务器与专门存储数据的数据库服务器建立通信联系，通过数据库服务器的专门数据库中数据表对页面访问记录进行存储。可选地，每个数据表都有相应的标识，便于服务器根据数据表的标识查找页面对应的历史访问记录，调用某时段的记录进行对访问页面的用户进行爬虫识别。

为了便于理解本发明实施例，以下示例性列举本申请中爬虫识别方法所应用的场景，可以包括如下二个场景。

场景一，服务器根据自身存储的离线数据进行分析和识别：

请参见图4，图4是本发明实施例提供的一种爬虫识别应用场景的示意图。该应用场景包括服务器1(方法实施例的执行主体)、服务器2(目标页面所在的服务器)和终端(包括终端1、终端2和终端3等多个终端)。多个用户通过终端对目标页面进行访问，目标页面可以将访问数据实时向服务器1发送，服务器1可以存储这些访问数据作为历史访问记录。服务器1根据预设时段内的目标页面的历史访问记录，分别对每一个用户的历史访问记录进行分析，得到每一个用户在第一时间段内的访问信息，其中，访问信息包括了用户在预设时间段内的访问频率和用户对核心数据的连接情况。根据恶意爬虫的参数以及行为特征，基于不同访问信息对对应的用户进行爬虫识别，判断每一个用户是否为恶意爬虫。在本应用场景中，通过建立识别爬取敏感信息的机器行为数据的分析模式，对离线数据进行长时间分析，从数据统计的方式发现爬虫，更好地提高了识别的准确率；并且有效发现规避高频检测的机器行为，能准确识别长时间低频爬取行为，更全面发现机器行为；因为不需要了解爬虫具体的方式，能从数据上来判断是否恶意，数据分析对不同的爬虫方式识别具有更大的鲁棒性；通过离线数据分析的方式，可以不影响业务系统的正常服务。可选地，不同账号登录的同一个终端可以看作是同一个用户。服务器1从多个终端中识别出终端1为恶意爬虫。在本发明实施例中，终端1(爬虫)、终端2和终端3都是示例性的描述对象，对具体的分析对象和识别结果不作限定。

场景二，服务器根据数据库中存储的离线数据进行分析和识别：

请参见图5，图5是本发明实施例提供的另一种爬虫识别应用场景的示意图。该应用场景包括了服务器1、数据库、服务器2和终端(包括终端1、终端2和终端3等多个终端)。多个终端都对目标页面进行访问，服务器2将实时的访问数据通过网络向数据库发送，数据库通过数据表存储服务器2发送的页面的访问数据。数据库可以根据服务器1的需求，发送不同页面的一段时间内或者全部的历史访问记录。区别于图4所示的应用场景，本应用场景中服务器1只对离线数据进行分析，而是直接从数据库获得需要的离线数据，可以不对离线数据进行存储和管理。服务器1经过数据分析，识别得到多个终端中的终端1为爬虫。本发明实施例中以终端1为爬虫为例进行说明，具体的爬虫识别过程以及有益效果描述，请参见图4所示应用场景的描述，在此不再赘述。

可以理解的是，上述的应用场景只是本发明实施例中的示例性的实施方式，本发明实施例中的应用场景包括但不仅限于以上应用场景。

上述详细阐述了本发明实施例的方法，下面提供了本发明实施例的相关装置。

请参见图6，图6是本发明实施例提供的一种爬虫识别装置的结构示意图，可以包括获取单元601、分析单元602、识别单元603、存储单元604、第一分析单元605和判断单元606。其中，可选的单元包括存储单元604、第一分析单元605和判断单元606。

获取单元601，用于根据预设的锚点区域及其对应的文本区域，生成图片识别模板；所述锚点区域与所述文本区域存在位置对应关系，所述文本区域包括定义了文本含义的文本信息；

分析单元602，用于在目标图片匹配有所述图片识别模板的锚点区域的情况下，通过所述图片识别模板中所述锚点区域与所述文本区域的位置对应关系，确定所述目标图片中进行识别的目标文本区域；

识别单元603，用于根据定义的所述文本含义得到所述目标文本区域中文本信息的文本含义。

在一种可能的实现方式中，所述装置还包括：存储单元604，用于接收N个页面的实时访问数据，所述N个页面包括所述目标页面，N为大于0的整数；对所述N个页面中每一个页面在数据库中创建数据表，以将每一个页面的实时访问数据存储至所述数据库中对应的数据表。

在一种可能的实现方式中，所述获取单元601，具体用于：根据所述第一用户的访问标识，从所述目标页面的所有历史访问记录中筛选得到所述第一用户对应的历史访问记录。

在一种可能的实现方式中，所述分析单元602还包括第一分析单元605，用于：

在一种可能的实现方式中，所述分析单元还包括判断单元606，用于在统计所述第一用户对目标数据的连接次数，以及对目标数据的连接活跃时长之前，判断所述访问请求是否为所述第一用户对所述目标数据进行的访问请求，若是，确认所述访问请求对应的所述第一用户对目标数据的连接活跃时长。

在一种可能的实现方式中，所述识别单元603，具体用于：

需要说明的是，本申请装置实施例中所描述的爬虫识别装置60的各功能单元的功能，可参见上述图2或者图3所述的方法实施例中文本识别方法的相关描述，此处不再赘述。

本发明实施例还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时包括上述方法实施例中记载的任意一种的部分或全部步骤。

本发明实施例还提供一种计算机程序，该计算机程序包括指令，当该计算机程序被计算机执行时，使得计算机可以执行上述方法实施例中文本识别方法中的部分或全部步骤。

本发明实施例提供了一种爬虫识别设备70，请参见图7，图7是本发明实施例提供的一种爬虫识别设备的结构示意图，如图7所示，爬虫识别装置能以图7的结构实现，所述爬虫识别设备70可以包括至少一个存储部件701、至少一个处理部件702、至少一个通信部件703。此外，该设备还可以包括天线、电源等通用部件，在此不再详述。

存储部件701可以包括一个或多个存储单元，每个单元可以包括一个或多个存储器，存储部件可用于存储程序和各种数据，并能在设备运行过程中高速、自动地完成程序或数据的存取。可以采用具有两种稳定状·态的物理器件来存储信息，所述两种稳定状态分别表示为“0”和“1”。前述存储部件701，可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其他光盘存储、光碟存储(可以包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理器相连接。存储器也可以和处理器集成在一起。

处理部件702，也可以称为处理器，处理单元，处理单板，处理模块、处理装置等。处理部件可以是中央处理器(central processing unit，CPU)，网络处理器(networkprocessor，NP)或者CPU和NP的组合，也可以是微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制以上方案程序执行的集成电路。

通信部件703，也可以称为收发机，或收发器等，可以是用于与其他设备或通信网络通信，其中可以包括用来进行无线、有线或其他通信方式的单元。

当爬虫识别设备70为图1所示服务器1时，所述处理部件702用于调用所述存储部件701的数据执行上述图2或者图3所述方法的相关描述，此处不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可能可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

在本申请中，所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本申请各个实施例中的各功能组件可以集成在一个组件也可以是各个组件单独物理存在，也可以是两个或两个以上组件集成在一个组件中。上述集成的组件既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的组件如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。尽管在此结合各实施例对本申请进行了描述，然而，在实施例所要求保护的本申请过程中，本领域技术人员可理解并实现公开实施例的其他变化。

Claims

1.一种爬虫识别方法，其特征在于，包括：

获取第一用户对目标页面的历史访问记录；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

接收N个页面的实时访问数据，所述N个页面包括所述目标页面，N为大于0的整数；

对所述N个页面中每一个页面在数据库中创建数据表，以将每一个页面的实时访问数据存储至所述数据库中对应的数据表。

3.根据权利要求1所述的方法，其特征在于，所述获取第一用户对目标页面的历史访问记录，包括：

根据所述第一用户的访问标识，从所述目标页面的所有历史访问记录中筛选得到所述第一用户对应的历史访问记录。

4.根据权利要求1所述的方法，其特征在于，所述第一时间段内的访问信息，包括：所述第一用户在第一时间段内每天对所述目标页面的访问信息，所述第一用户在第一时间段内每小时对所述目标页面的访问信息，以及所述第一用户在第一时间段内预设连续时长对目标页面的访问信息中的一个或者多个。

5.根据权利要求1所述的方法，其特征在于，所述分析所述历史访问记录，包括：

6.根据权利要求5任一项所述的方法，其特征在于，所述统计所述第一用户对目标数据的连接次数，以及对目标数据的连接活跃时长之前，还包括：

判断所述访问请求是否为所述第一用户对所述目标数据进行的访问请求，若是，确认所述访问请求对应的所述第一用户对目标数据的连接活跃时长。

7.根据权利要求1所述的方法，其特征在于，所述根据所述访问信息和预设的爬虫参数，对所述第一用户进行爬虫识别，包括：

8.一种爬虫识别装置，其特征在于，包括：

获取单元，用于获取第一用户对目标页面的历史访问记录；

9.一种识别设备，其特征在于，包括存储部件、通信部件和处理部件，存储部件、通信部件和处理部件相互连接，其中，存储部件用于存储数据处理代码，通信部件用于与外部设备进行信息交互；处理部件被配置用于调用程序代码，执行上述权利要求1-7任意一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任意一项所述的方法。