CN109145185A

CN109145185A - 识别网络爬虫以及提取网络爬虫特征的方法及装置

Info

Publication number: CN109145185A
Application number: CN201810108285.9A
Authority: CN
Inventors: 刘鑫琪; 陈�峰; 丛磊
Original assignee: Beijing Shuan Xin Yun Information Technology Co Ltd
Current assignee: Beijing Shuan Xin Yun Information Technology Co Ltd
Priority date: 2018-02-02
Filing date: 2018-02-02
Publication date: 2019-01-04
Anticipated expiration: 2038-02-02
Also published as: CN109145185B

Abstract

本发明公开了识别网络爬虫以及提取网络爬虫特征的方法及装置，此方法包括：确定用户访问特征集中的子集，此子集中的访问特征的访问参数与整体业务访问特征集中的至少一访问特征的访问参数相同；根据子集与整体业务访问特征集确定出综合访问特征集；从作为训练数据的历史日志中获取样本用户的用户访问特征集和综合访问特征集的合集中各访问特征的值，根据合集中各访问特征的值从合集中选择出重要访问特征集；根据重要访问特征集检测待检测用户是否为爬虫。通过本发明获得的爬虫特征具有代表性，通过有效性监控如果随时间推移出现误判则可以调整重要访问特征及相应的规则，最终达到较高的爬虫检测的精确率和召回率。

Description

识别网络爬虫以及提取网络爬虫特征的方法及装置

技术领域

本发明涉及互联网技术领域，尤其涉及识别网络爬虫以及提取网络爬虫特征的方法及装置。

背景技术

互联网中充斥着大量的爬虫，通过使用爬虫爬取目标网站内容，造成网站内容被其他人以低成本方式获取并利用；高频爬虫也会使业务负载变高使成本增加，正常用户浏览体验变差。

现有技术主要有以下几种：

一，简单判断方式：如某IP请求数在指定时间窗口内达到一定阈值则判断为爬虫，这种方式非常容易产生误判；或User-agent字符串包含爬虫相关信息，而大多数爬虫会通过改变诸如User-agent进行伪装，这种方式会产生大量漏判。

二，蜜罐资源：通过在页面添加一些正常浏览器浏览访问不到的资源，一旦有ip访问，过滤下头部如不是搜索引擎的蜘蛛则判断为爬虫。这种方式，如换一个业务则需要工程师重新设置蜜罐资源。

三，定期日志分析：通过使用自己研发或第三方的日志分析系统，离线分析日志。这种方式实时性低，爬虫可能已经完成了大量信息的爬取工作。同时这种方式针对一种业务按照特定规则进行分析，如换一个业务或业务本身发生变化则规则需要人工调整。

发明内容

为了解决上述技术问题，本发明提供了识别网络爬虫以及提取网络爬虫特征的方法及装置。

本发明提供的识别网络爬虫的方法，包括：

步骤1，确定作为训练数据的历史日志，确定作为训练数据的历史日志中的样本用户，确定样本用户中的非爬虫样本用户和爬虫样本用户；

步骤2，确定用户访问特征集和整体业务访问特征集；

步骤3，确定所述用户访问特征集中的子集，此子集中的访问特征的访问参数与所述整体业务访问特征集中的至少一访问特征的访问参数相同；

步骤4，根据所述子集与所述整体业务访问特征集确定出综合访问特征集；

步骤5，从所述作为训练数据的历史日志中获取所述样本用户的所述用户访问特征集和所述综合访问特征集的合集中各访问特征的值，根据合集中各访问特征的值从所述合集中选择出重要访问特征集；

步骤6，根据所述重要访问特征集检测待检测用户是否为爬虫。

上述识别网络爬虫的方法还具有以下特点：

所述根据所述重要访问特征集检测待检测用户是否为爬虫包括：

确定非爬虫样本用户的重要访问特征对应的正常范围，或确定爬虫样本用户的重要访问特征对应的异常范围；

根据待检测用户的预设时段内的历史日志计算所述重要访问特征的值，判断所述重要访问特征的值均位于所述正常范围之外或者所述异常范围之内时，确定所述待检测用户为爬虫。

上述识别网络爬虫的方法还具有以下特点：

根据所述子集与所述整体业务访问特征集确定出综合访问特征集包括：将访问参数的所述子集中的访问特征与所述整体业务访问特征集中的访问特征的比例作为综合访问特征。

上述识别网络爬虫的方法还具有以下特点：

所述根据合集中各访问特征的值从所述合集中选择出重要访问特征集包括以下选择方法中的至少一种：

选择方法一，根据作为训练数据的历史日志中访问特征的值选择方差大于预设值的访问特征作为重要访问特征；

选择方法二，计算作为训练数据的历史日志中访问特征的值与样本用户是否为爬虫的信息的相关性，将相关性的绝对值高于预设相关性值的访问特征作为重要访问特征；

选择方法三，将作为训练数据的历史日志中所述合集作为随机森林模型的输入值将样本用户是否为爬虫的信息作为随机森林模型的目标值，对随机森林模型训练成功后获得每个访问特征的重要度，将重要度大于预设重要度的访问特征作为重要访问特征。

上述识别网络爬虫的方法还具有以下特点：

所述方法还包括对重要访问特征集进行验证的步骤，验证不通过时，重新选择重要访问特征集；

所述对重要访问特征集进行验证的步骤包括：

使用验证数据集进行爬虫预测，判断精确率和召回率是否均大于预设阈值,精确率和召回率均大于预设阈值时验证通过；

或者，使用相同选择方法在验证数据集中选择出另一重要访问特征集合，验证两个重要访问特征集的特征重合度是否大于预设值。

上述识别网络爬虫的方法还具有以下特点：

所述方法还包括：检测是否有误判为爬虫的用户，检测到误判为爬虫的用户后，将此用户标定为非爬虫用户，将此非爬虫用户作为样本用户，重新执行步骤2至步骤5。

本发明实施例提供的识别网络爬虫的装置，包括：

用户标定模块，用于确定作为训练数据的历史日志，确定作为训练数据的历史日志中的样本用户，确定样本用户中的非爬虫样本用户和爬虫样本用户；

第一确定模块，用于确定用户访问特征集和整体业务访问特征集；

第二确定模块，用于确定所述用户访问特征集中的子集，此子集中的访问特征的访问参数与所述整体业务访问特征集中的至少一访问特征的访问参数相同；

第三确定模块，用于根据所述子集与所述整体业务访问特征集确定出综合访问特征集；

选择模块，用于从所述作为训练数据的历史日志中获取所述样本用户的所述用户访问特征集和所述综合访问特征集的合集中各访问特征的值，根据合集中各访问特征的值从所述合集中选择出重要访问特征集；

检测模块，用于根据所述重要访问特征集检测待检测用户是否为爬虫。

上述识别网络爬虫的装置还具有以下特点：

所述检测模块，用于使用以下方法根据所述重要访问特征集检测待检测用户是否为爬虫：

上述识别网络爬虫的装置还具有以下特点：

所述第三确定模块，用于使用以下方法根据所述子集与所述整体业务访问特征集确定出综合访问特征集；将访问参数的所述子集中的访问特征与所述整体业务访问特征集中的访问特征的比例作为综合访问特征。

上述识别网络爬虫的装置还具有以下特点：

所述选择模块，用于使用以下方法中的至少一种从所述样本用户的用户访问特征和业务访问特征中选择出重要访问特征集：

本发明提供的提取网络爬虫特征的方法，包括：

确定作为训练数据的历史日志，确定作为训练数据的历史日志中的样本用户，确定样本用户中的非爬虫样本用户和爬虫样本用户；

确定用户访问特征集和整体业务访问特征集；

确定所述用户访问特征集中的子集，此子集中的访问特征的访问参数与所述整体业务访问特征集中的至少一访问特征的访问参数相同；

根据所述子集与所述整体业务访问特征集确定出综合访问特征集；

从所述作为训练数据的历史日志中获取所述样本用户的所述用户访问特征集和所述综合访问特征集的合集中各访问特征的值，根据合集中各访问特征的值从所述合集中选择出重要访问特征集。

本发明提供的提取网络爬虫特征的装置，包括：

选择模块，用于所述作为训练数据的历史日志中获取所述样本用户的所述用户访问特征集和所述综合访问特征集的合集中各访问特征的值，根据合集中各访问特征的值从所述合集中选择出重要访问特征集。

本发明通过机器学习算法结合选取爬虫的重要访问特征，通过不断训练和学习，使获得的爬虫特征具有代表性，通过有效性监控如果随时间推移出现误判则可以调整重要访问特征及相应的规则，最终达到较高的爬虫检测的精确率和召回率,减少人工对根据对业务的了解制定规则的工作量。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是实施例中识别网络爬虫的方法的流程图；

图2是实施例中识别网络爬虫的装置的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

实施例一

如图1所示，本发明实施例中网络爬虫识别方法包括：

步骤101，确定作为训练数据的历史日志，确定作为训练数据的历史日志中的样本用户，确定样本用户中的非爬虫样本用户和爬虫样本用户；

步骤102，确定用户访问特征集和整体业务访问特征集；

步骤103，确定用户访问特征集中的子集，此子集中的访问特征的访问参数与整体业务访问特征集中的至少一访问特征的访问参数相同；

步骤104，根据子集与整体业务访问特征集确定出综合访问特征集；

步骤105，从作为训练数据的历史日志中获取样本用户的用户访问特征集和综合访问特征集的合集中各访问特征的值，根据合集中各访问特征的值从合集中选择出重要访问特征集；

步骤106，根据重要访问特征集检测待检测用户是否为爬虫。

其中，

历史日志中包括至少一业务标识(例如可以为域名、请求路径等)在历史时间段的日志信息。此日志信息包含日志主要包含客户端IP地址，客户端用户名称，访问时间，请求uri，请求状态，响应体大小(ResponseBodyByteSent)，请求长度(RequestLength)，响应时间(ResponseTime)，请求时间(RequestTime)，页面链接来源，用户客户端信息(UserAgent)等信息。

在选取出历史日志后还可以对历史日志进行数据清洗，包括但不限于：过滤掉不符合日志标准格式的日志，例如数据值错误的日志，数据类型错误的日志，数据格式错误的日志等。

步骤102中用户访问特征集(称为第一集合)包括但不限于以下特征：响应码类特征、请求目标类特征、请求资源类特征、用户特征类特征、请求性能类特征。

响应码类特征包括以下特征中至少一种：2xx请求数、3xx请求数、4xx请求数、5xx请求数、2xx请求数占比、3xx请求数占比、4xx请求数占比、5xx请求数占比；

请求目标类特征包括以下特征中至少一种：POST请求数、GET请求数、HEAD请求数、其它请求方式请求数、POST请求数占比、GET请求数占比、HEAD请求数占比、其它请求方式请求数占比、ajax请求数、静态资源请求数、ajax请求数占比、静态资源请求数占比、独立URI数、被请求最多URI的请求数，独立path请求数、被请求最多path的请求数、独立uripattern请求数、被请求最多的uri pattern数。

请求资源类特征包括以下特征中至少一种：独立referer数、被使用最多的referer数。

用户特征类特征包括以下特征中至少一种：独立userAgent数、被使用最多的userAgent数。

请求性能类特征包括以下特征中至少一种：ResponseBodyByteSent请求数平均值、RequestLength平均值、ResponseTime平均值、RequestTime平均值、ResponseBodyByteSent最大值、RequestLength最大值、平均ResponseTime最大值、RequestTime最大值。

整体业务访问特征集中访问特征的值是根据用户访问特征集中访问特征的值求均值得到的，例如，整体业务访问特征集(称为第二集合)包括但不限于：业务POST请求数占比、业务GET请求数占比、业务HEAD请求数占比、业务其它请求方式请求数占比、业务2xx请求数占比、业务3xx请求数占比、业务4xx请求数占比、业务5xx请求数占比、业务ajax请求数占比、业务静态资源请求数占比、业务ResponseBodyByteSent平均值、业务RequestLength平均值、业务ResponseTime平均值、业务RequestTime平均值。

举例如下：

步骤103中用户访问特征集中的子集(称为第三集合)的访问特征的访问参数与整体业务访问特征集中的至少一访问特征的访问参数相同，例如：用户访问特征集中的POST请求数占比和整体业务访问特征集中的业务POST请求数占比的访问参数均为POST请求数占比。用户访问特征集中的子集(称为第三集合)包括但不限于：包括但不限于：POST请求数占比、GET请求数占比、HEAD请求数占比、其它请求方式请求数占比、2xx请求数占比、3xx请求数占比、4xx请求数占比、5xx请求数占比、ajax请求数占比、静态资源请求数占比、ResponseBodyByteSent平均值、RequestLength平均值、ResponseTime平均值、RequestTime平均值。

整体业务访问特征集中除了包括上述与用户访问特征集中的子集的访问特征具有相同访问参数的访问特征外，还可以包括与用户访问特征集中的子集的访问特征不具有相同访问参数的其它访问特征。

步骤104中根据上述子集(第三集合)与整体业务访问特征集(第二集合)确定出综合访问特征集(第四集合)包括：将访问参数的子集中的访问特征与整体业务访问特征集中的访问特征的比例作为综合访问特征。例如综合访问特征集(第四集合)包括：POST请求数占比/业务POST请求数占比、GET请求数占比/业务GET请求数占比、HEAD请求数占比/业务HEAD请求数占比、其它请求方式请求数占比/业务其它请求方式请求数占比、2xx请求数占比/业务2xx请求数占比、3xx请求数占比/业务3xx请求数占比、4xx请求数占比/业务4xx请求数占比、5xx请求数占比/业务5xx请求数占比、ajax请求数占比/业务ajax请求数占比、静态资源请求数占比/业务静态资源请求数占比、ResponseBodyByteSent平均值/业务ResponseBodyByteSent平均值、RequestLength平均值/业务RequestLength平均值、ResponseTime平均值/业务ResponseTime平均值、RequestTime平均值/业务RequestTime平均值。

步骤105中，根据合集中各访问特征的值从合集中选择出重要访问特征集的方法包括但不限于以下方法中的至少一种：

选择方法三，将作为训练数据的历史日志中合集作为随机森林模型的输入值将样本用户是否为爬虫的信息作为随机森林模型的目标值，对随机森林模型训练成功后获得每个访问特征的重要度，将重要度大于预设重要度的访问特征作为重要访问特征。

选择方法四，通过经验选择重要访问特征，即通过经验选择出对判断爬虫有较好的辅助作用的重要访问特征。

所有选择方法可以组合使用，并把多个方法得到的重要访问特征进行合并。

上述选择方法还包括从重要访问特征集合中删减特征以消除多重共线性，涉及到的方法包括但不限于以下方法：

删减方法一：保留重要解释变量，去掉次要或者可替代解释变量；

删减方法二：应用逐步回归法。

此步骤后还包括验证步骤，包括对重要访问特征集进行验证的步骤，验证不通过时，重新选择重要访问特征集。

对重要访问特征集进行验证时需使用验证数据集。验证数据集是从作为验证数据的历史日志中提取出的。为了使本方法更加稳定准确且鲁棒性更高，上述训练数据的数据量远远大于此验证数据的数据量。

此验证步骤具体包括：使用验证数据集进行爬虫预测，判断精确率和召回率是否均大于预设阈值,精确率和召回率均大于预设阈值时验证通过；例如，使用上述选择方法三时，使用训练成功的模型对验证数据集进行爬虫预测，再判断精确率和召回率是否均大于预设阈值；再例如，确定出非爬虫样本用户的重要访问特征对应的正常范围或确定出爬虫样本用户的重要访问特征对应的异常范围，根据验证数据集和上述范围进行爬虫预测，再判断精确率和召回率是否均大于预设阈值；

步骤106中根据重要访问特征集检测待检测用户是否为爬虫包括：确定非爬虫样本用户的重要访问特征对应的正常范围，或确定爬虫样本用户的重要访问特征对应的异常范围；计算待检测用户在预设时间窗口的重要访问特征的值，判断重要访问特征的值均位于正常范围之外或者异常范围之内时，确定待检测用户为爬虫。其中，确定非爬虫用户的重要访问特征对应的正常范围以及确认爬虫用户的重要访问特征对应的异常范围时可以使用卡方检验，三倍标准差法，按照分位数取值等方法。

本方法中，为防止离线选定特征随着时间推移在线上对爬虫判断的精确率和召回率下降，也就是爬虫识别规则识别效果下降，需要不定时检测是否有误判为爬虫的用户，检测到误判为爬虫的用户后，将此用户标定为非爬虫用户，将此非爬虫用户作为样本用户，重新确定非爬虫样本用户的重要访问特征对应的正常范围，或确定爬虫样本用户的重要访问特征对应的异常范围后，如精确率和召回率仍不能达到预设阈值，则再次重复执行本方法，得到新的网络爬虫识别的重要访问特征并用于检测爬虫。检测是否有误判为爬虫的用户可以根据此用户的日志由人工进行判断。

如图2所示，识别网络爬虫的装置包括：

第二确定模块，用于确定用户访问特征集中的子集，此子集中的访问特征的访问参数与整体业务访问特征集中的至少一访问特征的访问参数相同；

第三确定模块，用于根据子集与整体业务访问特征集确定出综合访问特征集；

选择模块，用于从作为训练数据的历史日志中获取样本用户的用户访问特征集和综合访问特征集的合集中各访问特征的值，根据合集中各访问特征的值从合集中选择出重要访问特征集；

检测模块，用于根据重要访问特征集检测待检测用户是否为爬虫。

其中，

检测模块，用于使用以下方法根据重要访问特征集检测待检测用户是否为爬虫：

根据待检测用户的预设时段内的历史日志计算重要访问特征的值，判断重要访问特征的值均位于正常范围之外或者异常范围之内时，确定待检测用户为爬虫。

第三确定模块用于使用以下方法根据子集与整体业务访问特征集确定出综合访问特征集；将访问参数的子集中的访问特征与整体业务访问特征集中的访问特征的比例作为综合访问特征。

用户访问特征集包括以下特征中的至少一种：响应码类特征、请求目标类特征、请求资源类特征、用户特征类特征、请求性能类特征。

选择模块，用于使用以下方法中的至少一种从样本用户的用户访问特征和业务访问特征中选择出重要访问特征集：

本装置还包括：

误判检测模块，用于检测是否有误判为爬虫的用户；

用户标定模块，还用于在检测到误判为爬虫的用户后，将此用户标定为非爬虫用户，将此非爬虫用户作为样本用户。

实施例二

实施例二中提供的提取网络爬虫特征的方法，此方法包括：

确定用户访问特征集和整体业务访问特征集；

确定用户访问特征集中的子集，此子集中的访问特征的访问参数与整体业务访问特征集中的至少一访问特征的访问参数相同；

根据子集与整体业务访问特征集确定出综合访问特征集；

从作为训练数据的历史日志中获取样本用户的用户访问特征集和综合访问特征集的合集中各访问特征的值，根据合集中各访问特征的值从合集中选择出重要访问特征集。

实施例二中提取网络爬虫特征的装置包括：

选择模块，用于作为训练数据的历史日志中获取样本用户的用户访问特征集和综合访问特征集的合集中各访问特征的值，根据合集中各访问特征的值从合集中选择出重要访问特征集。

上面描述的内容可以单独地或者以各种方式组合起来实施，而这些变型方式都在本发明的保护范围之内。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现，相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括要素的物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案而非限制，仅仅参照较佳实施例对本发明进行了详细说明。本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，均应涵盖在本发明的权利要求范围当中。

Claims

1.一种识别网络爬虫的方法，其特征在于，包括：

步骤2，确定用户访问特征集和整体业务访问特征集；

2.如权利要求1所述的识别网络爬虫的方法，其特征在于，

3.如权利要求1所述的识别网络爬虫的方法，其特征在于，

4.如权利要求1所述的识别网络爬虫的方法，其特征在于，

5.如权利要求1所述的识别网络爬虫的方法，其特征在于，

所述对重要访问特征集进行验证的步骤包括：

6.如权利要求1所述的识别网络爬虫的方法，其特征在于，

7.一种识别网络爬虫的装置，其特征在于，包括：

8.如权利要求7所述的识别网络爬虫的装置，其特征在于，

9.如权利要求7所述的识别网络爬虫的装置，其特征在于，

10.如权利要求7所述的识别网络爬虫的装置，其特征在于，

11.一种提取网络爬虫特征的方法，其特征在于，包括：

确定用户访问特征集和整体业务访问特征集；

12.一种提取网络爬虫特征的装置，其特征在于，包括：