CN112434208A

CN112434208A - 一种孤立森林的训练及其网络爬虫的识别方法与相关装置

Info

Publication number: CN112434208A
Application number: CN202011408927.0A
Authority: CN
Inventors: 曹轲; 钟清华
Original assignee: Bigo Technology Pte Ltd
Current assignee: Bigo Technology Pte Ltd
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2021-03-02
Anticipated expiration: 2040-12-03
Also published as: EP4242878A1; US20240111818A1; CN112434208B; EP4242878A4; WO2022117063A1

Abstract

本发明实施例提供了一种孤立森林的训练及其网络爬虫的识别方法与相关装置，该孤立森林的训练方法包括：对统一资源标识符进行分类，获得多个类别，监控来源于各个IP地址的客户端访问类别下的统一资源标识的行为，获得样本行为数据，将样本行为数据编码为向量，作为样本访问向量，根据样本访问向量训练用于从客户端中识别网络爬虫的孤立森林，由于网络爬虫的目的性强，网络爬虫的访问行为明显异于用户的访问行为，使得网络爬虫的访问行为在全局的访问行为稀疏，孤立特征对此特性敏感，保证孤立森林的性能，有效识别网络爬虫，并且，用户的访问行为并非人为制定的规则，网络爬虫无法模拟用户的访问行为，可以有效保证网站的安全。

Description

一种孤立森林的训练及其网络爬虫的识别方法与相关装置

技术领域

本发明实施例涉及安全的技术领域，尤其涉及一种孤立森林的训练及其网络爬虫的识别方法与相关装置。

背景技术

在网络上，不同类型的网站发布大量的页面，等等，用户可正常通过客户端访问这些页面，浏览相关的信息，如新闻、直播、短视频等。

除了用户之外，不法分子也会使用特定的客户端(即网络爬虫(又称网络蜘蛛))访问页面，抓取网页中特定的信息，从而仿冒网站的页面开发APP(Application，应用程序)，或者，违规参与网站的活动(如大批量使用红包、优惠券)，等等，给网站带来安全风险。

目前，各大网站会使用不同的措施防范网络爬虫，例如，通过UA(UserAgent，用户代理)识别网络爬虫，通过IP(Internet Protocol，网际互连协议)地址的访问频率识别网络爬虫，通过并发量识别爬虫，等等。

但是，这些方式都是人为制定的规则，容易被不法分子破解，例如，收集正常的UA供网络爬虫使用可破解通过UA识别网络爬虫的方法，动态更换网络爬虫的IP地址可破解通过IP地址的访问频率识别网络爬虫的方法，网络爬虫使用分布式架构可破解通过并发量识别爬虫的方法，等等，导致网络爬虫的识别精确度低，网站的安全风险较高。

发明内容

本发明实施例提出了一种孤立森林的训练及其网络爬虫的识别方法与相关装置，以解决通过人为制定的规则识别网络爬虫的精确度低的问题。

第一方面，本发明实施例提供了一种孤立森林的训练方法，包括：

对统一资源标识符进行分类，获得多个类别；

监控来源于各个IP地址的客户端访问所述类别下的统一资源标识的行为，获得样本行为数据；

将所述样本行为数据编码为向量，作为样本访问向量；

根据所述样本访问向量训练用于从所述客户端中识别网络爬虫的孤立森林。

第二方面，本发明实施例还提供了一种网络爬虫的识别方法，包括：

监控来源于各个IP地址的客户端访问多个类别下的统一资源标识的行为，获得目标行为数据；

将所述目标行为数据编码为向量，作为目标访问向量；

确定用于从所述客户端中识别网络爬虫的孤立森林；

将所述目标访问向量输入所述孤立森林中识别异常的所述IP地址；

确定来源于异常的所述IP地址的所述客户端为所述网络爬虫。

第三方面，本发明实施例还提供了一种孤立森林的训练装置，包括：

标识符分类模块，用于对统一资源标识符进行分类，获得多个类别；

样本行为数据监控模块，用于监控来源于各个IP地址的客户端访问所述类别下的统一资源标识的行为，获得样本行为数据；

样本访问向量编码模块，用于将所述样本行为数据编码为向量，作为样本访问向量；

孤立森林训练模块，用于根据所述样本访问向量训练用于从所述客户端中识别网络爬虫的孤立森林。

第四方面，本发明实施例还提供了一种网络爬虫的识别装置，包括：

目标行为数据监控模块，用于监控来源于各个IP地址的客户端访问多个类别下的统一资源标识的行为，获得目标行为数据；

目标访问向量编码模块，用于将所述目标行为数据编码为向量，作为目标访问向量；

孤立森林确定模块，用于确定用于从所述客户端中识别网络爬虫的孤立森林；

异常地址识别模块，用于将所述目标访问向量输入所述孤立森林中识别异常的所述IP地址；

网络爬虫确定模块，用于确定来源于异常的所述IP地址的所述客户端为所述网络爬虫。

第五方面，本发明实施例还提供了一种计算机设备，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面中所述的孤立森林的训练方法，或者，如第而方面中所述的网络爬虫的识别方法。

第六方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如第一方面中所述的孤立森林的训练方法，或者，如第而方面中所述的网络爬虫的识别方法。

在本实施例中，对统一资源标识符进行分类，获得多个类别，监控来源于各个IP地址的客户端访问类别下的统一资源标识的行为，获得样本行为数据，将样本行为数据编码为向量，作为样本访问向量，根据样本访问向量训练用于从客户端中识别网络爬虫的孤立森林，一方面，鉴于作用相同或相似的统一资源标识符的结构相同或相似，对统一资源标识符分类统计访问行为，不仅可以维持访问行为的有效性，而且，可以大大降低访问行为的数据量，降低训练孤立森林占用的资源，另一方面，由于网络爬虫的目的性强，网络爬虫的访问行为明显异于用户的访问行为，使得网络爬虫的访问行为在全局的访问行为稀疏，孤立特征对此特性敏感，保证孤立森林的性能，有效识别网络爬虫，并且，用户的访问行为并非人为制定的规则，孤立特征属于无监督的监控方式，网络爬虫无法模拟用户的访问行为，无法通过伪造正常的UA、动态更换IP地址、使用分布式架构等方式绕开有监督的监控，可以有效保证网站的安全。

附图说明

图1为本发明实施例一提供的一种孤立森林的训练方法的流程图；

图2A与图2B为本发明实施例一提供的一种孤立森林的原理示例图；

图3为本发明实施例一提供的一种生成孤立树的示例图；

图4是本发明实施例二提供的一种网络爬虫的识别方法的流程图；

图5是本发明实施例二提供的一种降维后IP地址的分布示意图；

图6为本发明实施例二提供的一种遍历孤立树的示例图；

图7为本发明实施例三提供的一种孤立森林的训练装置的结构示意图；

图8为本发明实施例四提供的一种网络爬虫的识别装置的结构示意图；

图9为本发明实施例五提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种孤立森林的训练方法的流程图，本实施例可适用于基于网络爬虫的行为孤立于用户的行为训练孤立森林的情况，该方法可以由孤立森林的训练装置来执行，该孤立森林的训练装置可以由软件和/或硬件实现，可配置在计算机设备中，例如，服务器、个人电脑、工作站，等等，具体包括如下步骤：

步骤101、对统一资源标识符进行分类，获得多个类别。

网络爬虫是一个可按照指定规则、通过访问URI(Uniform Resource Identifier，统一资源标识符)自动化浏览网络内容的机器人程序。

其中，URI可以定位一个Web(网页)上可用的资源，比如，HTML(HyperText MarkupLanguage，超文本标记语言)文档、图像、视频片段、程序，等等。

URI通常由三部分组成：

①资源的命名机制；

②存放资源的主机名；

③资源自身的名称。

需要说明的是，上述三部分只是一般URI的命名方式，只要是可以唯一标识资源的都被称为URI，上面三条合在一起是URI的充分不必要条件。

例如，假设直播网站中，某个URI如下：

https://*.*cdn.cn/front-publish/home-h5-master/css/h5_4545200.css

该URI表示的资源为CSS(Cascading Style Sheets，层叠样式表)，可以通过HTTPS(Hyper Text Transfer Protocol over SecureSocket Layer，超文本传输安全协议)协议访问该CSS，该CSS位于主机www.*.com(域名)上，通过“front-publish/home-h5-master/css/h5_4545200.css”可以对该CSS进行唯一标识。

在具体实现中，网络爬虫可以包括如下四种：

(1)通用爬虫：又称全网爬虫，爬行对象从作为种子的URI集合开始，随后逐渐扩充到整个网络空间，通用爬虫的服务对象主要为搜索引擎，或一些大型的Web数据提供商。

(2)聚焦网络爬虫：此类爬虫又称主题爬虫(Topical Crawler)，可选择性爬取那些与预定义主题高度相关的内容的网络爬虫，如爬取新闻的网络爬虫、爬取论坛的网络爬虫、爬取产品的网络爬虫等，聚焦网络爬虫往往周期性的访问一些高时效数据，应用广泛，爬取目标专一，能够满足一些特定人群对特定领域信息的需求。

(3)增量爬虫：是对已下载的网页采取增量式更新，只爬行更新内容的网络爬虫，着重追求提高所爬取内容的新鲜度。

(4)深层网络爬虫：又称隐藏网络(Hidden Web)爬虫，负责获取搜索引擎无法索引的、超链接不可达的或需提交表单(如需登录或详细配置)后可见的网络内容。

聚焦网络爬虫常被用于爬取指定网站的数据，尤其是指定APP的数据，抓取网页中特定的信息，从而仿冒网站的页面开发APP，或者，违规参与网站的活动(如大批量使用红包、优惠券)，等等，给网站带来安全风险。

在本实施例中，可以收集URI、按照指定的方式对URI进行分类，从而获得多个类别。

一般情况下，该URI可以属于同一个网站，或者，属于同一个APP，当然，该URI也可以属于不同的网站，或者，属于不同的APP，不实施例对此不加以限制。

在一种分类的方式中，可以按照URI的功能对URI进行分类。

具体而言，由于相同功能的URI的结构相同或相似，因此，可遍历对URI中的各个部分，从而确定统一资源标识符的功能，将实现同一功能的统一资源标识符划分至同一个类别中。

若URI属于同一个APP，APP通常以模块，以方法区分资源的功能，则可以以斜杠(即“/”)作为切分点、将统一资源标识符切分为多个字段，从相应的位置分别提取表示域名、模块、方法的字段，作为目标字段，确定目标字段表示统一资源标识符的功能，此时，针对其他URI，如果具有该目标字段，则表示该URI属于该目标字段对应的分类。

一般情况下，域名所处的位置为协议之后的第一个字段，模块所处的位置为协议之后的第二个字段，在部分情况下，表示模块的字段，在部分情况下会空。

例如，针对用于直播的APP的某个URI“https://www.*.com/24686574565”，“www.*.com”表示域名，“24686574565”为直播间的号码、表示方法，则该URI的功能为进入直播间，则可以确定类别为“www.*.com/enter_room”。

又例如，针对用于直播的APP的某个URI“https://*.*cdn.cn/front-publish/live-master/css/home/home_9c316ba.css”，“www.*.com”表示域名，“home”为直播间、表示模块，“css”为CSS、表示方法，则该URI的功能为进入直播间，则可以确定类别为“www.*.com/home/css”。

当然，上述对URI进行分类的方法只是作为示例，在实施本发明实施例时，可以根据实际情况设置其它对URI进行分类的方法，例如，对于论坛类网站的URI，如果存在表示翻页的锚点anchor(如上一页、下一页、<<、>>等)，则可以将锚点anchor所链接的URI中去除表示数字的字段，若剩余的字段相同，则确定剩余的字段表示类别，如针对“http://bbs.*.com/forum-99-2.html”、“http://bbs.*.com/forum-99-3.html”，去除数字块“99-2”、“99-3”，剩余的字段相同，则类别“bbs.*.com/forum”，等等，本发明实施例对此不加以限制。另外，除了上述对URI进行分类的方法外，本领域技术人员还可以根据实际需要采用其它对URI进行分类的方法，本发明实施例对此也不加以限制。

步骤102、监控来源于各个IP地址的客户端访问类别下的统一资源标识的行为，获得样本行为数据。

在网站的运行过程中，若客户端访问URI，则可以使用日志文件记录与该客户端访问该URI的行为相关的信息，该信息包括客户端所在的操作系统、客户端所在的终端设备、客户端的IP地址、访问的起始时间、访问的终止时间、点击的元素，等等。

在本实施例中，以IP地址标识客户端，以URI的类别作为统计的维度，从历史上的日志文件中提取该IP地址下的客户端访问该类别下的URI的行为的信息，作为样本行为数据。

步骤103、将样本行为数据编码为向量，作为样本访问向量。

对于各个IP地址的样本行为数据，可以按照指定的方式编码为向量，作为样本访问向量，便于后续训练孤立森林。

在一种编码的方式中，从样本行为数据中统计来源于该IP地址的客户端访问各个类别下的统一资源标识的数量，以该类别作为向量的维度，将各个数量设置为向量中各个维度的值，获得IP地址的样本访问向量。

例如，假设对URI分类为400种类别，则可以对URI的类别进行排序并赋予0-399的编号，若IP地址访问编号为0的类别的URI的数量为100，访问编号为1-399的类别的URI的数量均为0，则这个IP地址的样本访问向量为[100,0,0,0,0,...,0]。

在本实施例中，用户所登录的客户端与网络爬虫在访问URI的数量上存在较为明显的差异，通过统计各个IP地址的客户端访问各个类别下的统一资源标识的数量作为样本访问向量中各个维度的值，不仅操作简便，而且可以很好区分用户所登录的客户端与网络爬虫，从而提高孤立森林的性能。

当然，上述编码的方式只是作为示例，在实施本发明实施例时，可以根据实际情况设置其它编码的方式，例如，从样本行为数据中统计来源于该IP地址的客户端访问各个类别下的统一资源标识的时间，以该类别作为向量的维度，将各个时间设置为向量中各个维度的值，获得IP地址的样本访问向量，等等，本发明实施例对此不加以限制。另外，除了上述编码的方式外，本领域技术人员还可以根据实际需要采用其它编码的方式，本发明实施例对此也不加以限制。

由于部分URI是根据当时的时间戳、图片名称、文件名称等生成，加上原本网站功能比较多的话，一个网站不同的URI数量可能有成百上千万，在对URI进行分类之后，类别可能仍然有百或千的量级，在本实施例中，在维持样本访问向量的主要特征分量的情况下，可以通过PCA(Principal Component Analysis，主成分分析)、LDA(Linear DiscriminantAnalysis，线性判别分析)、LLE(Locally linear embedding，局部线性嵌入)等算法降低样本访问向量的维度，将样本访问向量的维度降低至个或十的量级，降低运算量，即，在维持孤立森林的性能的情况下，降低训练孤立森林占用的资源。

当然，在网站功能比较少的情况下，在对URI进行分类之后，类别为个或十的量级，或者，计算机设备的性能足以支持使用高纬度的样本访问向量训练孤立森林，此时，可以直接使用样本访问向量训练孤立森林，而不进行降维，本实施例对此不加以限制。

以PCA为例，PCA是线性降维的方法，它的目标是通过某种线性投影，将高维的数据映射到低维的空间中表示，并期望在所投影的维度上数据的方差最大，以此使用较少的数据维度，同时保留住较多的原数据点的特性。

假设有m条n维的样本访问向量，则可以将样本访问向量组合成矩阵，作为n行m列第一样本访问矩阵X。

将第一样本访问矩阵X中的每一行数据执行零均值化(减去这一行的均值)。

若执行零均值化完成，则对第一样本访问矩阵X计算样本协方差矩阵C，

其中，X^T为X的转置矩阵。

计算样本协方差矩阵C的样本特征值与样本特征向量。

按照样本特征值的大小对样本特征向量从上到下按行排列，并取前k(k为正整数)行组成第二样本访问矩阵P。

计算第二样本访问矩阵P与第一样本访问矩阵X之间的乘积，获得降维(即降到k维)之后的样本访问向量Y，Y＝PX。

步骤104、根据样本访问向量训练用于从客户端中识别网络爬虫的孤立森林。

在具体实现中，用户登录客户端，在访问网站时会访问大量的URI，以直播网站为例，打开直播网站的首页会加载很多的URI，如首页直播视频、网站css样式、直播间列表、热门列表等数据，形式如下：

https://www.*.com/

https://*.*cdn.cn/front-publish/home-h5-master/css/h5_4545200.css

https://*.*cdn.cn/front-publish/live-master/css/home/home_9c316ba.css

https://*.*cdn.cn/front-publish/live-master/css/home/pre-style-main～31ecd969_5f5e458.css

https://*.*cdn.cn/static/img/ping43.gif？cache＝0.41438868879293733

https://global-oss-*.*/*/room-list/get-page-info

...

并且，随着用户使用网站的功能会访问更多的URI，不同的功能会加载不同的URI，其中很多URI是在用户无感知的情况下访问的。

虽然不同的用户的访问行为不同，如使用的功能、使用的次数、使用的具体URI不同，但是从百万、千万级的用户行为的整体分布来看，即使单个用户具有随机性，但是整体各种URI比例大致处于正常的分布中。

若客户端为网络爬虫，网络爬虫目的性较强，例如，一个用于爬取主播信息的爬虫，第一步爬取主播编号列表，得到列表后批量爬取表示直播间的URI下载信息，假设主播直播页的URI为https://www.*.com/23214324325(数字为直播间的ID)，那么网络爬虫活动的URI序列如下情况：

https://www.*.com/room-list/get-page-info

https://www.*.com/23214324325

https://www.*.com/23432543654

https://www.*.com/24354365462

https://www.*.com/24654654534

https://www.*.com/24686574565

...

用户访问不同URI的行为(如访问的数量)和网络爬虫访问不同URI的行为(如访问的数量)具有较大的差异，由于网络爬虫目的性较强且是人为设置的机器行为，因此，很难模拟用户的随机性，所以，在本实施例中，鉴于网络爬虫的访问行为在全局的访问行为稀疏，而孤立森林(Isolation Forest，iForest)对全局系数的点敏感，可以根据对不同访问行为的差异性有效识别出网络爬虫，训练用于从客户端中识别网络爬虫的孤立森林。

孤立森林是一个基于Ensemble(整体)的快速异常检测方法，具有线性时间复杂度和高精准度，是符合大数据处理要求的算法，可适用于连续数据(Continuous numericaldata)的异常检测，与其他异常检测算法通过距离、密度等量化指标来刻画样本间的疏离程度不同，孤立森林通过对样本点的孤立来检测异常值，即将异常定义为容易被孤立的离群点，可以理解为分布稀疏且离密度高的群体较远的点。用统计学来解释，在数据空间里面，分布稀疏的区域表示数据发生在此区域的概率很低，因而可以认为落在这些区域里的数据是异常的。

此外，相较于LOF(Local Outlier Factor，离群因子)、K-means(K均值聚类)等传统算法，孤立森林算法对高纬数据有较好的鲁棒性。

如图2A所示，假设现在有一组一维数据，对这组数据进行随机切分，从而把点A和点B单独切分出来。具体的，设定切分的指标，在最大值和最小值之间随机选择一个值x，按照＜x和≥x把数据分成左右两组数据。在这两组数据中分别重复这个步骤，直到数据不可再分。显然，点B跟其他数据比较疏离，可能用较少的次数把点B切分出来；点A跟其他数据点聚在一起，可能用较多的次数把点A切分出来。

图2B所示，把数据从一维扩展到两维。同样的，设定切分的指标，沿着两个坐标轴进行随机切分，把点A'和点B'单独切分出来。随机选择一个特征维度，在这个特征的最大值和最小值之间随机选择一个值，按照跟特征值的大小关系将数据切分为左右两组数据。在左右两组数据中，重复上述步骤，随机地按某个特征维度的取值把数据进行细分，直到无法细分，即，只剩下一个数据点，或者剩下的数据全部相同。直观上，点B'跟其他数据点比较疏离，可能很少的几次操作就可以将点B'切分出来，点A'跟其他数据点聚在一起，可能用较多的次数把点A切分出来。

一般情况下，如图2A和图2B所示，点B和点B'由于跟其他数据隔的比较远，会被认为是异常数据，而点A和点A'会被认为是正常数据。直观上，异常数据由于跟其他数据点较为疏离，可能较少几次切分就可以将它们单独划分出来，而正常数据恰恰相反，这正是iForest的概念。

在本发明的一个实施例中，步骤104可以包括如下步骤：

步骤1041、确定用于区分网络爬虫的指标。

针对样本访问向量可统计不同的指标，在本实施例中，可从这些指标中挖掘可区分网络爬虫的指标。

在一个示例中，以访问的数量(即维度的值)作为区分网络爬虫的指标，针对某些页面，网络爬虫访问的URI和大部分用户访问的URI可能较为一致，但在网络爬虫访问该URI的数量上和用户访问该URI的数量差异很大，例如，用户访问主播的直播页面的数量一般在1-50次，而网络爬虫访问主播的直播页面的数量在几百上千甚至上万次。

在此示例中，可以确定访问统一资源标识的数量，作为用于区分网络爬虫的指标。

在另一个示例中，以访问的维度作为区分网络爬虫的指标，针对某些页面，网络爬虫访问的URI和大部分用户访问的URI差别较大，例如，用户主要访问编号为0-50的类型下的URI，而网络爬虫主要访问编号为51-399的类型下的URI。

在此示例中，可以确定访问类别下所有统一资源标识的数量，作为用于区分网络爬虫的指标。

当然，上述指标只是作为示例，在实施本发明实施例时，可以根据实际情况设置其它指标，例如，确定访问统一资源标识的时长，作为用于区分网络爬虫的指标，或者，确定访问类别下所有统一资源标识的时长，作为用于区分网络爬虫的指标，等等，本发明实施例对此不加以限制。另外，除了上述指标的方式外，本领域技术人员还可以根据实际需要采用其它指标，本发明实施例对此也不加以限制。

步骤1042、在该指标下，多次使用部分样本访问向量生成多棵孤立树，获得孤立森林。

在具体实现中，孤立森林包含t(t为正整数)棵孤立树(Isolation Tree，iTree)，每个孤立树是一个二叉树结构，孤立森林采用二叉树去对数据进行切分，数据点在二叉树中所处的深度反应了该条数据的“疏离”程度。

在具体实现中，可以预先设置训练条件，例如，当前节点中的IP地址禁止切分(即，当前节点中的IP地址为一个，或者，当前节点中所有IP地址相同)，孤立树到达预设的高度，等等。

构建一棵孤立树时，从全量的样本访问向量中随机抽取部分样本访问向量，将该部分样本访问向量作为孤立树的根节点，从根节点开始进行遍历，即根节点为初始的当前节点。

判断当前是否满足预设的训练条件。

若是(即满足训练条件)，则确定孤立树训练完成。

若否(即未满足训练条件)，则在该指标下，以随机的方式在当前节点的切割范围内生成切割点，其中，切割范围为样本访问向量在指标下的数值组成的范围，即样本访问向量在指标下最小的数值与最大的数值作为切割范围的两个端点值，使得切割点的数值在该指标的最大值与最小值之间。

以切割点生成一个超平面，将当前节点的空间划分为两个子空间，即以当前节点作为父节点，生成第一子节点、第二子节点，一般情况下，第一子节点位于左侧，第二子节点位于右侧。

将当前节点中样本访问向量在指标下的数值与切割点进行比较。

若样本访问向量在指标下的数值小于切割点，则将IP地址添加至第一子节点。

若样本访问向量在指标下的数值大于或等于切割点，则将IP地址添加至第二子节点，返回判断当前是否满足预设的训练条件，在未满足训练条件的情况下，以第一子节点、第二子节点作为当前节点，不断构造新的节点，直至完成训练孤立树。

如此重复t次训练，共生成t棵孤立树，完成孤立森林的训练，在孤立森林训练完成之后，则可以对孤立森林进行测试，若测试的评价指标(如准确率、精准率、召回率和F1值等)满足要求，则可以上线孤立森林对IP地址进行监控，检测各个IP地址下的客户端是否为网络爬虫。

例如，如图3所示，从全量的IP地址中随机抽取了一批IP地址a、b、c、d的样本访问向量训练一棵孤立树，将a、b、c、d添加至节点300中，作为根节点，指定用于区分网络爬虫的指标，针对节点300，在该指标下，a、b、c、d的样本访问向量中数值之间随机生成切割点T₁，a、b、c的数值均小于T₁，d的数值大于T₁，则将a、b、c添加至节点310(即第一子节点)、将d添加至节点320(即第二子节点)，针对节点320，由于节点320仅有一个IP地址d，停止构建新的节点，针对节点310，在该指标下，a、b、c的样本访问向量中数值之间随机生成切割点T₂，a的数值均小于T₂，b、c的数值大于T₂，则将a添加至节点311(即第一子节点)、将b、c添加至节点312(即第二子节点)，针对节点311，由于节点311仅有一个IP地址a，停止构建新的节点，针对节点312，在该指标下，b、c的样本访问向量中数值之间随机生成切割点T₃，b的数值均小于T₃，c的数值大于T₃，则将b添加至节点3121(即第一子节点)、将c添加至节点3122(即第二子节点)，针对节点3121，由于节点3121仅有一个IP地址b，停止构建新的节点，针对节点3122，由于节点3122仅有一个IP地址c，停止构建新的节点，至此，该孤立树训练完成，其中，b和c的高度为3，a的高度是2，d的高度是1，因为d最早就被孤立(isolated)，因此，d最有可能是异常的。

在本实施例中，对统一资源标识符进行分类，获得多个类别，监控来源于各个IP地址的客户端访问类别下的统一资源标识的行为，获得样本行为数据，将样本行为数据编码为向量，作为样本访问向量，根据样本访问向量训练用于从客户端中识别网络爬虫的孤立森林，一方面，鉴于作用相同或相似的统一资源标识符的结构相同或相似，对统一资源标识符分类统计访问行为，不仅可以维持访问行为的有效性，而且，可以大大降低访问行为的数据量，降低训练孤立森林占用的资源，另一方面，由于网络爬虫的目的性强，网络爬虫的访问行为明显异于用户的访问行为，使得网络爬虫的访问行为在全局的访问行为稀疏，孤立特征对此特性敏感，保证孤立森林的性能，有效识别网络爬虫，用户的访问行为并非人为制定的规则，孤立特征属于无监督的监控方式，网络爬虫无法模拟用户的访问行为，无法通过伪造正常的UA、动态更换IP地址、使用分布式架构等方式绕开有监督的监控，可以有效保证网站的安全。

实施例二

图4为本发明实施例一提供的一种网络爬虫的识别方法的流程图，本实施例可适用于基于网络爬虫的行为孤立于用户的行为识别网络爬虫情况，该方法可以由网络爬虫的识别装置来执行，该网络爬虫的识别装置可以由软件和/或硬件实现，可配置在计算机设备中，例如，服务器、个人电脑、工作站，等等，具体包括如下步骤：

步骤401、监控来源于各个IP地址的客户端访问多个类别下的统一资源标识的行为，获得目标行为数据。

在网站的运行过程中，若客户端访问URI，则可以使用日志文件记录与该客户端访问该URI的行为相关的信息。

在本实施例中，可以预先针对URI设置多个类别。

在一个示例中，若URI的类别以表示功能的目标字段(如表示域名、模块、方法的字段)表征，如“www.*.com/home/css”，则可以遍历URI中的各个字段，若URI中具有目标字段，则可以确定该URI属于该类别。

进而，以IP地址标识客户端，以URI的类别作为统计的维度，从实时的日志文件中提取该IP地址下的客户端访问该类别下的URI的行为的信息，作为目标行为数据。

步骤402、将目标行为数据编码为向量，作为目标访问向量。

对于各个IP地址的目标行为数据，可以按照指定的方式编码为向量，作为目标访问向量，便于后续孤立森林处理。

对于网站实时监控IP地址，为了提高监控的灵活性，保证网站的安全性，可以通过如下两种方式触发网络爬虫的识别：

在一种触发的方式中，若累积目标行为数据的时间超过预设的第一阈值，则可以将目标行为数据编码为向量，作为目标访问向量，即，间隔一段时间对各个IP地址进行网络爬虫的识别。

在另一种触发的方式中，若目标行为数据中、来源于IP地址的客户端访问统一资源标识的数量超过预设的第二阈值，则将目标行为数据编码为向量，作为目标访问向量，即，累积一定数量的访问则对IP地址进行网络爬虫的识别。

在一种编码的方式中，从目标行为数据中统计来源于该IP地址的客户端访问各个类别下的统一资源标识的数量，以该类别作为向量的维度，将各个数量设置为向量中各个维度的值，获得IP地址的目标访问向量。

此外，在维持目标访问向量的主要特征分量的情况下，可以通过PCA、LDA、LLE等算法降低目标访问向量的维度，将目标访问向量的维度降低至个或十的量级，降低运算量，从而降低运行孤立森林占用的资源。

以PCA为例，假设有m条n维的目标访问向量，则可以将目标访问向量组合成矩阵，作为n行m列第一目标访问矩阵X。

将第一目标访问矩阵X中的每一行数据执行零均值化(减去这一行的均值)。

若执行零均值化完成，则对第一目标访问矩阵X计算样本协方差矩阵C，

其中，X^T为X的转置矩阵。

计算目标协方差矩阵C的目标特征值与目标特征向量。

按照目标特征值的大小对目标特征向量从上到下按行排列，并取前k(k为正整数)行组成第二目标访问矩阵P。

计算第二目标访问矩阵P与第一目标访问矩阵X之间的乘积，获得降维(即降到k维)之后的目标访问向量Y，Y＝PX。

步骤403、确定用于从客户端中识别网络爬虫的孤立森林。

在具体实现中，可以应用实施例一的方法预先训练用于从客户端中识别网络爬虫的孤立森林，在实时监控IP地址时，加载并启动该孤立森林。

步骤404、将目标访问向量输入孤立森林中识别异常的IP地址。

在本实施例中，将目标访问向量输入孤立森林中，孤立森林搜索孤立的目标访问向量，从而识别IP地址是正常还是异常。

由于异常的IP地址的数量较少(即异常的IP地址在所有IP地址中的占比较小)，并且，异常的IP地址与大部分正常的IP地址之间具有疏离性，因此，异常的IP地址会被更早的孤立出来。

如图5所示，为了可视化，将目标行为向量降维成2维的向量，正常的IP地址比较集中，而大量的散点即是异常的地址IP。

在本发明的一个实施例中，步骤404包括如下步骤：

步骤4041、依据目标访问向量遍历孤立森林中的各棵孤立树，以计算IP地址的异常值。

在具体实现中，孤立森林包含t棵孤立树，将各个IP地址的目标访问向量遍历各棵孤立树，异常的IP地址会距离孤立树的根节点更近，而正常的IP地址则会距离根节点更远，从而参考IP地址在各棵孤立树的异常情况综合衡量IP地址在整个孤立森林的异常情况，将该异常情况数值化为异常值。

在具体实现中，可在每棵孤立树中，将IP地址添加至孤立树的根节点中，从根节点开始处理，即根节点为初始的当前节点。

确定用于区分网络爬虫的指标，例如，确定访问统一资源标识的数量，作为用于区分网络爬虫的指标；和/或，确定访问类别下所有统一资源标识的数量，作为用于区分网络爬虫的指标。

查询当前节点的切割点，将当前节点中目标访问向量在指标下的数值与切割点进行比较。

若目标访问向量在指标下的数值小于切割点，则将IP地址添加至当前节点下的第一子节点。

若目标访问向量在指标下的数值大于或等于切割点，则将IP地址添加至当前节点下的第二子节点，返回执行查询当前节点的切割点，在未满足切分完成的情况下，以第一子节点、第二子节点作为当前节点，继续切分各个IP地址，直至当前节点中的IP地址禁止切分(即，当前节点中的IP地址为一个，或者，当前节点中所有IP地址相同)。

例如，如图6所示，在一棵孤立树中具有节点300、节点310、节点320、节点311、节点312、节点3121、节点3122，针对节点300设置了割点T₁，针对节点310设置了割点T₂，针对节点312设置了割点T₃，指定用于区分网络爬虫的指标，若当前监控IP地址e得到目标访问向量，在该指标下，e的目标访问向量中的数值小于T₁，则将e添加至节点310，在该指标下，e的目标访问向量中的数值小于T₂，则将e添加至节点311，此时，e在该孤立树的高度为2。

若目标访问向量完成遍历各棵孤立树，则基于IP地址在所有孤立树中的高度(又称路径长度、深度)计算IP地址的异常值。

假设在孤立树中落在IP地址x所在叶子节点的IP地址为T.size，则IP地址x在这棵孤立树上的路径长度h(x)为：

h(x)＝e+C(T.size)

其中，e表示IP地址x从孤立树的根节点到叶子节点过程中经过的边的数目，C(T.size可以认为是一个修正值，它表示在一棵用T.size条IP地址构建的二叉树的平均路径长度。

一般地，C(n)表示如下：

其中，H(n-1)可用ln(n-1)+0.5772156649估算，0.5772156649是欧拉常数。

IP地址x最终的异常值Score(x)综合了多棵孤立树的结果：

其中，E(h(x))表示IP地址x在多棵孤立树的路径长度的均值，

表示单棵孤立树的IP地址的数量，

表示用

条IP地址构建的孤立树的平均路径长度，可用于归一化。

针对异常值Score(x)，如果IP地址x在多棵孤立树中的平均路径长度越短，异常值Score(x)越接近1，表明IP地址x越异常；如果IP地址x在多棵孤立树中的平均路径长度越长，异常值Score(x)越接近0，表示IP地址x越正常；如果IP地址x在多棵孤立树中的平均路径长度接近整体均值，则异常值Score(x)会在0.5附近。

步骤4042、若异常值大于预设的阈值，则确定IP地址异常。

一般情况下，异常值越大，表示IP地址的异常程度越高，反之，异常值越小，表示IP地址的异常程度越低。

将各个IP地址的异常值与预设的阈值进行比较。

如果某个IP地址的异常值大于该阈值，则表示该IP地址的异常程度较高，可认定异常。

如果某个IP地址的异常值小于或等于该阈值，则表示该IP地址的异常程度较低，可认定正常。

步骤405、确定来源于异常的IP地址的客户端为网络爬虫。

针对异常的IP地址，可以认定该异常的IP地址下的客户端为网络爬虫，可对该IP地址下的客户端进行异常处理，例如，封禁来自于该异常的IP地址的访问，将该IP地址下的客户端拉入黑名单，等等。

在本实施例中，由于编码目标访问向量、对目标访问向量降维、确定用于区分网络爬虫的指标等分别与实施例一中的编码样本访问向量、对样本访问向量降维、确定用于区分网络爬虫的指标等的应用基本相似，所以描述的比较简单，相关之处参见实施例一的部分说明即可，本实施例在此不加以详述。

在本实施例中，监控来源于各个IP地址的客户端访问多个类别下的统一资源标识的行为，获得目标行为数据，将目标行为数据编码为向量，作为目标访问向量，确定用于从客户端中识别网络爬虫的孤立森林，将目标访问向量输入孤立森林中识别异常的IP地址，确定来源于异常的IP地址的客户端为网络爬虫。一方面，鉴于作用相同或相似的统一资源标识符的结构相同或相似，对统一资源标识符分类统计访问行为，不仅可以维持访问行为的有效性，而且，可以大大降低访问行为的数据量，降低训练孤立森林占用的资源，另一方面，由于网络爬虫的目的性强，网络爬虫的访问行为明显异于用户的访问行为，使得网络爬虫的访问行为在全局的访问行为稀疏，孤立特征对此特性敏感，使得孤立森林可以有效识别网络爬虫，并且，用户的访问行为并非人为制定的规则，孤立特征属于无监督的监控方式，网络爬虫无法模拟用户的访问行为，无法通过伪造正常的UA、动态更换IP地址、使用分布式架构等方式绕开有监督的监控，可以有效保证网站的安全。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

实施例三

图7为本发明实施例三提供的一种孤立森林的训练装置的结构框图，具体可以包括如下模块：

标识符分类模块701，用于对统一资源标识符进行分类，获得多个类别；

样本行为数据监控模块702，用于监控来源于各个IP地址的客户端访问所述类别下的统一资源标识的行为，获得样本行为数据；

样本访问向量编码模块703，用于将所述样本行为数据编码为向量，作为样本访问向量；

孤立森林训练模块704，用于根据所述样本访问向量训练用于从所述客户端中识别网络爬虫的孤立森林。

在本发明的一个实施例中，所述标识符分类模块701包括：

功能确定子模块，用于确定统一资源标识符的功能；

功能分类子模块，用于将实现同一功能的所述统一资源标识符划分至同一个类别中。

在本发明的一个实施例中，所述功能确定子模块包括：

切分单元，用于以斜杠作为切分点、将统一资源标识符切分为多个字段；

目标字段提取单元，用于分别提取表示域名、模块、方法的字段，作为目标字段；

目标字段表征单元，用于确定所述目标字段表示所述统一资源标识符的功能。

在本发明的一个实施例中，所述样本访问向量编码模块703包括：

样本行为数据统计子模块，用于从所述样本行为数据中统计来源于所述IP地址的客户端访问各个所述类别下的统一资源标识的数量；

样本维度确定子模块，用于以所述类别作为向量的维度，将各个所述数量设置为向量中各个所述维度的值，获得所述IP地址的样本访问向量。

在本发明的一个实施例中，所述孤立森林训练模块704包括：

指标确定子模块，用于确定用于区分网络爬虫的指标；

孤立树生成子模块，用于在所述指标下，多次使用部分所述样本访问向量生成多棵孤立树，获得孤立森林。

在本发明的一个实施例中，所述指标确定子模块包括：

访问量确定单元，用于确定访问所述统一资源标识的数量，作为用于区分网络爬虫的指标；

和/或，

访问维度确定单元，用于确定访问所述类别下所有所述统一资源标识的数量，作为用于区分网络爬虫的指标。

在本发明的一个实施例中，所述孤立树生成子模块包括：

根节点设置单元，用于随机抽取部分所述样本访问向量，作为孤立树的根节点；

训练条件判断单元，用于判断当前是否满足预设的训练条件，若是，则调用训练完成确定单元，若否，则调用切割点生成单元；

训练完成确定单元，用于确定所述孤立树训练完成；

切割点生成单元，用于在当前节点的切割范围内生成切割点，当前所述节点初始为所述根节点，所述切割范围为所述样本访问向量在所述指标下的数值组成的范围；

子节点生成单元，用于以当前所述节点作为父节点，生成第一子节点、第二子节点；

样本添加单元，用于若所述样本访问向量在所述指标下的数值小于所述切割点，则将所述IP地址添加至所述第一子节点，若所述样本访问向量在所述指标下的数值大于或等于所述切割点，则将所述IP地址添加至所述第二子节点，返回调用所述训练条件判断单元。

在本发明的一个实施例中，还包括：

样本访问向量降维模块，用于降低所述样本访问向量的维度。

在本发明的一个实施例中，所述样本访问向量降维模块包括：

第一样本访问矩阵合成子模块，用于将所述样本访问向量组合成矩阵，作为第一样本访问矩阵；

样本零均值化子模块，用于将所述第一样本访问矩阵中的每一行数据执行零均值化；

样本协方差矩阵计算子模块，用于若执行所述零均值化完成，则对所述第一样本访问矩阵计算样本协方差矩阵；

样本特征计算子模块，用于计算所述样本协方差矩阵的样本特征值与样本特征向量；

第二样本访问矩阵生成子模块，用于按照所述样本特征值的大小对所述样本特征向量从上到下按行排列，并取前k行组成第二样本访问矩阵；

样本向量降维子模块，用于计算所述第二样本访问矩阵与所述第一样本访问矩阵之间的乘积，获得降维之后的样本访问向量。

本发明实施例所提供的孤立森林的训练装置可执行本发明任意实施例所提供的孤立森林的训练方法，具备执行方法相应的功能模块和有益效果。

实施例四

图8为本发明实施例四提供的一种网络爬虫的识别装置的结构框图，具体可以包括如下模块：

目标行为数据监控模块801，用于监控来源于各个IP地址的客户端访问多个类别下的统一资源标识的行为，获得目标行为数据；

目标访问向量编码模块802，用于将所述目标行为数据编码为向量，作为目标访问向量；

孤立森林确定模块803，用于确定用于从所述客户端中识别网络爬虫的孤立森林；

异常地址识别模块804，用于将所述目标访问向量输入所述孤立森林中识别异常的所述IP地址；

网络爬虫确定模块805，用于确定来源于异常的所述IP地址的所述客户端为所述网络爬虫。

在本发明的一个实施例中，所述异常地址识别模块804包括：

异常值计算子模块，用于依据所述目标访问向量遍历所述孤立森林中的各棵孤立树，以计算所述IP地址的异常值；

异常地址确定子模块，用于若所述异常值大于预设的阈值，则确定所述IP地址异常。

在本发明的一个实施例中，所述异常值计算子模块包括：

根节点添加子模块，用于在每棵所述孤立树中，将所述IP地址添加至所述孤立树的根节点中；

指标确定子模块，用于确定用于区分网络爬虫的指标；

切割点查询子模块，用于查询当前节点的切割点，当前所述节点初始为所述根节点；

子节点添加子模块，用于若所述目标访问向量在所述指标下的数值小于所述切割点，则将所述IP地址添加至当前所述节点下的第一子节点，若所述目标访问向量在所述指标下的数值大于或等于所述切割点，则将所述IP地址添加至当前所述节点下的第二子节点，返回调用所述切割点查询子模块；

异常值计算子模块，用于若所述目标访问向量完成遍历各棵所述孤立树，则基于所述IP地址在所有所述孤立树中的高度计算所述IP地址的异常值。

在本发明的一个实施例中，所述指标确定子模块包括：

和/或，

在本发明的一个实施例中，所述目标访问向量编码模块802包括：

第一触发子模块，用于若累积所述目标行为数据的时间超过预设的第一阈值，则将所述目标行为数据编码为向量，作为目标访问向量；

或者，

第二触发子模块，用于若所述目标行为数据中、来源于所述IP地址的客户端访问所述统一资源标识的数量超过预设的第二阈值，则将所述目标行为数据编码为向量，作为目标访问向量。

目标行为数据统计子模块，用于从所述目标行为数据中统计来源于所述IP地址的客户端访问各个所述类别下的统一资源标识的数量；

目标维度确定子模块，用于以所述类别作为向量的维度，将各个所述数量设置为向量中各个所述维度的值，获得所述IP地址的目标访问向量。

在本发明的一个实施例中，还包括：

目标访问向量降维模块，用于降低所述目标访问向量的维度。

在本发明的一个实施例中，所述目标访问向量降维模块包括：

第一目标访问矩阵合成子模块，用于将所述目标访问向量组合成矩阵，作为第一目标访问矩阵；

目标零均值化子模块，用于将所述第一目标访问矩阵中的每一行数据执行零均值化；

目标协方差矩阵计算子模块，用于若执行所述零均值化完成，则对所述第一目标访问矩阵计算目标协方差矩阵；

目标特征计算子模块，用于计算所述目标协方差矩阵的目标特征值与目标特征向量；

第二目标访问矩阵生成子模块，用于按照所述目标特征值的大小对所述目标特征向量从上到下按行排列，并取前k行组成第二目标访问矩阵；

目标向量降维子模块，用于计算所述第二目标访问矩阵与所述第一目标访问矩阵之间的乘积，获得降维之后的目标访问向量。

本发明实施例所提供的网络爬虫的识别装置可执行本发明任意实施例所提供的网络爬虫的识别方法，具备执行方法相应的功能模块和有益效果。

实施例五

图9为本发明实施例五提供的一种计算机设备的结构示意图。图9示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图9显示的计算机设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图9未显示，通常称为“硬盘驱动器”)。尽管图9中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的孤立森林的训练方法、网络爬虫的识别方法。

实施例六

本发明实施例六还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述孤立森林的训练方法、网络爬虫的识别方法的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，计算机可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种孤立森林的训练方法，其特征在于，包括：

对统一资源标识符进行分类，获得多个类别；

将所述样本行为数据编码为向量，作为样本访问向量；

2.根据权利要求1所述的方法，其特征在于，所述对统一资源标识符进行分类，获得多个类别，包括：

确定统一资源标识符的功能；

将实现同一功能的所述统一资源标识符划分至同一个类别中。

3.根据权利要求2所述的方法，其特征在于，所述确定统一资源标识符的功能，包括：

以斜杠作为切分点、将统一资源标识符切分为多个字段；

分别提取表示域名、模块、方法的字段，作为目标字段；

确定所述目标字段表示所述统一资源标识符的功能。

4.根据权利要求1所述的方法，其特征在于，所述将所述样本行为数据编码为向量，作为样本访问向量，包括：

从所述样本行为数据中统计来源于所述IP地址的客户端访问各个所述类别下的统一资源标识的数量；

以所述类别作为向量的维度，将各个所述数量设置为向量中各个所述维度的值，获得所述IP地址的样本访问向量。

5.根据权利要求1所述的方法，其特征在于，所述根据所述样本访问向量训练用于从所述客户端中识别网络爬虫的孤立森林，包括：

确定用于区分网络爬虫的指标；

在所述指标下，多次使用部分所述样本访问向量生成多棵孤立树，获得孤立森林。

6.根据权利要求5所述的方法，其特征在于，所述确定用于区分网络爬虫的指标，包括：

确定访问所述统一资源标识的数量，作为用于区分网络爬虫的指标；

和/或，

确定访问所述类别下所有所述统一资源标识的数量，作为用于区分网络爬虫的指标。

7.根据权利要求5所述的方法，其特征在于，所述在所述指标下，多次使用部分所述样本访问向量生成多棵孤立树，获得孤立森林，包括：

随机抽取部分所述样本访问向量，作为孤立树的根节点；

判断当前是否满足预设的训练条件，若是，则确定所述孤立树训练完成；若否，则在当前节点的切割范围内生成切割点，当前所述节点初始为所述根节点，所述切割范围为所述样本访问向量在所述指标下的数值组成的范围；

以当前所述节点作为父节点，生成第一子节点、第二子节点；

若所述样本访问向量在所述指标下的数值小于所述切割点，则将所述IP地址添加至所述第一子节点，若所述样本访问向量在所述指标下的数值大于或等于所述切割点，则将所述IP地址添加至所述第二子节点，返回执行所述判断当前是否满足预设的训练条件。

8.根据权利要求1-7任一项所述的方法，其特征在于，还包括：

降低所述样本访问向量的维度。

9.根据权利要求8所述的方法，其特征在于，所述降低所述样本访问向量的维度，包括：

将所述样本访问向量组合成矩阵，作为第一样本访问矩阵；

将所述第一样本访问矩阵中的每一行数据执行零均值化；

若执行所述零均值化完成，则对所述第一样本访问矩阵计算样本协方差矩阵；

计算所述样本协方差矩阵的样本特征值与样本特征向量；

按照所述样本特征值的大小对所述样本特征向量从上到下按行排列，并取前k行组成第二样本访问矩阵；

计算所述第二样本访问矩阵与所述第一样本访问矩阵之间的乘积，获得降维之后的样本访问向量。

10.一种网络爬虫的识别方法，其特征在于，包括：

将所述目标行为数据编码为向量，作为目标访问向量；

确定用于从所述客户端中识别网络爬虫的孤立森林；

11.根据权利要求10所述的方法，其特征在于，所述将所述目标访问向量输入所述孤立森林中识别异常的所述IP地址，包括：

依据所述目标访问向量遍历所述孤立森林中的各棵孤立树，以计算所述IP地址的异常值；

若所述异常值大于预设的阈值，则确定所述IP地址异常。

12.根据权利要求11所述的方法，其特征在于，所述依据所述目标访问向量遍历所述孤立森林中的各棵孤立树，以计算所述IP地址的异常值，包括：

在每棵所述孤立树中，将所述IP地址添加至所述孤立树的根节点中；

确定用于区分网络爬虫的指标；

查询当前节点的切割点，当前所述节点初始为所述根节点；

若所述目标访问向量在所述指标下的数值小于所述切割点，则将所述IP地址添加至当前所述节点下的第一子节点，若所述目标访问向量在所述指标下的数值大于或等于所述切割点，则将所述IP地址添加至当前所述节点下的第二子节点，返回执行所述查询当前节点的切割点；

若所述目标访问向量完成遍历各棵所述孤立树，则基于所述IP地址在所有所述孤立树中的高度计算所述IP地址的异常值。

13.根据权利要求10-12任一项所述的方法，其特征在于，所述将所述目标行为数据编码为向量，作为目标访问向量，包括：

若累积所述目标行为数据的时间超过预设的第一阈值，则将所述目标行为数据编码为向量，作为目标访问向量；

或者，

若所述目标行为数据中、来源于所述IP地址的客户端访问所述统一资源标识的数量超过预设的第二阈值，则将所述目标行为数据编码为向量，作为目标访问向量。

14.一种孤立森林的训练装置，其特征在于，包括：

15.一种网络爬虫的识别装置，其特征在于，包括：

16.一种计算机设备，其特征在于，所述计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的孤立森林的训练方法，或者，如权利要求10-13中任一所述的网络爬虫的识别方法。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1-9中任一所述的孤立森林的训练方法，或者，如权利要求10-13中任一所述的网络爬虫的识别方法。