CN111343127A

CN111343127A - 一种提升爬虫识别召回率的方法、装置、介质及设备

Info

Publication number: CN111343127A
Application number: CN201811548489.0A
Authority: CN
Inventors: 王坤; 刘鑫琪; 丛磊
Original assignee: Beijing Shuan Xinyun Information Technology Co ltd
Current assignee: Beijing Shuan Xinyun Information Technology Co ltd
Priority date: 2018-12-18
Filing date: 2018-12-18
Publication date: 2020-06-26
Anticipated expiration: 2038-12-18
Also published as: WO2020125477A1; CN111343127B

Abstract

本发明提供了一种提升爬虫识别召回率的方法、装置、介质及设备，本方法中使用决策树集成算法建立集成的决策树模型，对决策树模型进行训练，抽取决策规则，经测试通过后将决策规则和经验规则合并，得到爬虫识别规则，将规则上线到爬虫拦截系统。本发明可以有效提高爬虫识别召回率。

Description

一种提升爬虫识别召回率的方法、装置、介质及设备

技术领域

本发明涉及网络技术领域，尤其涉及反爬虫技术领域。

背景技术

现有的反爬虫策略，是基于用户访问网络的web日志，根据以往判断正常用户与爬虫的访问行为的经验，并据此建立反爬虫策略。基于经验主义制定的爬虫规则，爬虫识别率低。

发明内容

本发明旨在解决上面描述存在的爬虫识别率低的问题，本发明的目的是提供一种突破经验主义的局限，发现爬虫攻击的潜在特征的方法，来提升爬虫识别召回率。具体的，本发明提供一种能有效提升web日志中爬虫识别召回率的方法。

步骤1，使用决策树集成算法建立集成的决策树模型，使用训练样本集对所述决策树模型进行训练；

步骤2，在每一个决策树模型的多条决策流中使用抽取规则选择决策流，形成决策规则；

步骤3，对所述决策规则进行测试；

步骤4，判断测试精确率是否达到预设数值，如果是，执行步骤6，如果否，执行步骤5；

步骤5，对抽取规则进行调试，转回至步骤3；

步骤6，使用决策规则对测试样本集进行预测，获得预测样本；对历次预测样本累加，得到累加预测样本集合；

步骤7，将累加预测样本集合与使用经验规则预测出的样本进行对比，判断是否存在新增样本，如果是，执行步骤8；

步骤8，将历次形成的决策规则与经验规则合并作为爬虫识别规则。

上述方法还具有以下特点：步骤7中判断不存在新增样本时，从训练样本集中剔除预测样本，转回至步骤1。

上述方法还具有以下特点：在每一个决策树模型的多条决策流中按抽取规则选择决策流的方法为在所有决策流中选取叶节点预测值为正且基尼系数值≤m的叶节点所在的决策流作为决策规则。

上述方法还具有以下特点：对抽取规则进行调试的手段包括，新增经验条件和/或调整特征划分数值。

本发明还提供了一种提升爬虫识别召回率的处理装置，包括：

模型建立模块，用于使用决策树集成算法建立集成的决策树模型；

模型训练模块，用于使用训练样本集对决策树模型进行训练；

规则选择模块，用于在每一个决策树模型的多条决策流中使用抽取规则选择决策流，形成决策规则；

测试模块，用于对所述决策规则进行测试；

第一判断模块，用于判断测试精确率是否达到预设数值，如果是，触发预测模块，如果否，触发调试模块；

调试模块，用于对抽取规则进行调试，将调试后的抽取规则发送至测试模块；

预测模块，用于使用经验规则和决策规则对测试样本集进行预测，获得预测样本；确定历次预测样本的累加预测样本集合；

第二判断模块，用于将累加预测样本集合与使用经验规则预测出的样本进行对比，判断是否存在新增样本，如果是，触发规则合并模块；

规则合并模块，用于将历次形成的决策规则与经验规则合并作为新的爬虫识别规则。

上述装置还具有以下特点：当第二判断模块判断到没有新增样本时则触发剔除模块，剔除模块用于从训练样本集中剔除预测样本，将剔除预测样本后的训练样本集发送至模型训练模块。

上述装置还具有以下特点：规则选择模块在每一个决策树模型的多条决策流中选择叶节点预测值为正且基尼系数值≤m的叶节点所在的决策流作为决策规则。

上述装置还具有以下特点：所述调试模块对抽取规则进行调试的手段包括新增经验条件和/或调整特征划分数值。

本发明还提供了一种计算机可读存储介质，该存储介质上存储有计算机程序，所述程序被处理器执行时实现上述方法的步骤。

本发明还提供了一种计算机设备，该设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

根据本发明的技术方案，可以有效识别网络爬虫，并可有效提升爬虫识别的召回率。

参照附图来阅读对于示例性实施例的以下描述，本发明的其他特性特征和优点将变得清晰。

附图说明

并入到说明书中并且构成说明书的一部分的附图示出了本发明的实施例，并且与描述一起用于解释本发明的原理。在这些附图中，类似的附图标记用于表示类似的要素。下面描述中的附图是本发明的一些实施例，而不是全部实施例。对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，可以根据这些附图获得其他的附图。

图1是本发明实施例中提升爬虫识别召回率的方法的流程图。

图2是本发明实施例中使用的集成决策树中的单棵树的决策示意图。

图3是本发明实施例中提升爬虫识别召回率的装置的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

如图1所示，提升爬虫识别召回率的方法，包括：

步骤101，使用决策树集成算法建立集成的决策树模型，选取训练样本集对决策树模型进行训练；

步骤102，在每一个决策树模型的多条决策流中按抽取规则选择决策流，形成决策规则；

步骤103，对决策规则进行测试；

步骤104，判断测试精确率是否达到预设数值，如果是，执行步骤106，如果否，执行步骤105；

步骤105，对抽取规则进行调试，并转回至步骤103；

步骤106，使用测试通过的决策规则对测试样本集进行预测，获得预测样本，并将历次决策规则预测的样本累加，得到累加预测样本集合；

步骤107，将累加预测样本集合与使用经验规则预测出的样本进行对比，判断是否存在新增样本，如果是，执行步骤108；

步骤108，历次形成的决策规则与经验规则合并作为爬虫识别规则，并可将爬虫规则上线到爬虫识别拦截系统。

其中，步骤101中，根据某一用户在一定时间段内的多次访问请求的日志信息，观察日志信息并确定该用户的访问行为是否为爬虫攻击，是则为spider，标签值为正；否则为norma l，标签值为负；按以上方法为一段时间内所有用户建立正标签或负标签；同时根据某一时段用户访问的web日志中的状态码的种类、个数及各种类占比，某一时段用户访问的网页请求数，请求种类及占比，提取用户数据的重要特征信息；对多个带有标签值的用户数据根据提取的重要特征信息构造统计特征，建立统计样本。标签值为正的样本为正样本，代表该用户为爬虫用户，标签值为负的样本为负样本，代表该用户为正常用户；并按一定比例，将统计样本分成训练样本集和测试样本集；本实施例中，选择全部样本的70％作为训练样本集，全部样本的30％作为测试样本集。

使用决策树集成算法建立集成的决策树模型，并使用训练样本集训练决策树模型。

步骤102，根据步骤101得到的决策树集成模型，通常计算复杂，在有大规模访问请求的网站上，对每个用户的请求进行模型预测时延迟较大，不利于模型上线部署，由于决策树模型进行预测时采用的是少数服从多数的投票规则，决策树集成模型的整体预测精确率很难达到精确率标准的要求，例如，精确率须为100％。为了保证预测的精确率，需要从集成的决策树模型中提取决策流以形成决策规则。

步骤103，抽取的决策规则需要进一步的测试，测试的目的是验证决策规则的精确率及鲁棒性。所谓精确率测试即是验证规则预测结果的精确率是否为100％，鲁棒性测试即是测试规则对训练样本集之外的其他数据集的精确率是否也为100％。

步骤104，判断测试精确率是否达到预设数值，例如，精确率须为100％，是则通过测试；如果精确率没有达到预设数值，即精确率测试和鲁棒性测试的任一测试没有达到预设数值，则测试没有通过，执行步骤105，对规则进行调试，并返回至步骤103继续对调试后的规则进行测试。

步骤106，决策规则测试通过后，使用决策规则对测试样本集进行预测，获得预测样本，并将历次决策规则预测的样本累加，得到累加预测样本集合。

步骤107，将累加预测样本集合与使用经验规则预测出的样本进行对比，判断是否有新增样本，如果有新增样本，说明以上决策规则可以增加爬虫识别的召回率。

步骤108，将历次形成的决策规则与经验规则合并，作为爬虫识别规则，并可以上线到爬虫拦截系统。优选的，可以采用多轮测试对历次单条决策规则预测的样本与经验规则预测的样本进行比较，判断是否有新增识别样本。累积的决策规则越多，预测到的新增识别样本就会越多，从而有效提升爬虫识别的召回率。

当步骤107中判断不存在新增样本时，从所述训练样本集中剔除预测样本，转回至步骤1，重新训练决策树模型。

决策树模型共有N层；实际使用中可以根据样本复杂程度，调整决策树模型的深度，本实施例中，将决策树模型设为4层，保证预测精确度的同时，使决策树模型不会太复杂。

决策树模型中，每个非叶节点包括5项元素，分别为根据该节点的样本计算得到的最佳特征划分；基尼系数值；样本数量；该节点样本中的正负类样本数占总样本的比例；预测值；每个叶节点包括：基尼系数值；样本数量；该节点样本中的正负类样本数占总样本的比例；预测值；每个节点内的样本包括正样本和负样本；正样本多于负样本时，该节点的预测值为spider，当负样本多于正样本时，该节点的预测值为normal；根据正样本和负样本所占的比例，计算基尼系数值；最佳特征划分，即对节点内样本的所有特征的基尼系数值进行排序，选择最小基尼系数值所对应的特征作为特征划分。

抽取规则为在所有决策流中选取叶节点预测值为spider且基尼系数值≤m的叶节点所在的决策流作为决策规则，基尼系数值m根据实际情况选择，对于预测值为spider的节点，其基尼系数值越小，说明节点内的样本越纯净，且为爬虫样本。

对抽取规则进行调试的手段包括，新增经验条件和/或特征划分数值的调整。

举例说明，图2所示，根节点表示进入该树的样本数量有18793个，其中正负类样本占比分别为0.858、0.142，默认正表示spider，负表示normal，基于少数服从多数的原则该节点被预测为spider，该节点的样本选择最佳特征划分feature728≤0.74时的gini系数为0.244。feature728表示第728个特征。gini系数即基尼系数，用于衡量样本纯净度的一种指标，基尼系数越小表示样本值越纯净，即样本全为正或全为负。

根节点的左子节点表示符合父节点特征划分feature728≤0.74样本集合，该类样本有2586个，正负类样本占总样本的比例分别为0.063和0.075，该节点的样本集合的最佳划分为feature378≤0.001，采用该最佳特征划分的gini系数为0.496，其他节点的解释与此类似。

从根节点至叶节点的一条完整路径构成一个决策流，父节点与子节点的逻辑关系是和，每个决策流就是一条规则，所有的决策流构成一棵树，所有树构成一个集成的森林模型如随机森林，AdaBoost等。

以图中由根节点至左数第4个叶节点的决策路径为例，可知该决策流将所有符合条件的样本预测成spider，但处于该决策流的样本中仍有部分norma l用户，这种决策方法精确率不高，约为0.012/(0.012+0.021)＝64％，极易导致误判发生。同时考虑实际的森林模型都很大很深，直接运行森林模型比较耗时，因此需要进行规则提取工作，提取出满足要求的规则作为决策规则。

规则提取时，只选取预测值为spider且gini系数≤0.005的叶节点，如图所示，应选取根节点至第一个叶节点和根节点至第七个叶节点的决策流，其余决策流全部舍弃，则图中决策树模型最后提取的两条规则分别为：

规则1

Feature728≤0.74and feature378≤0.001and feature691≤3.617

规则2

Feature728＞0.74andfeature678＞1.025and feature755＜0.469

把上面两条规则作为决策规则进行验证性和适应性测试，并判断决策规则对训练样本集预测结果的精确率是否为100％，对训练样本集之外的其他数据集的精确率是否也为100％。如果测试不能通过，则需要对决策规则进行调试，调试的手段包括新增经验条件或特征划分数值的调整，比如，将规则1调整为：Feature728≤0.74and feature378≤0.001and feature691≤3.617and feature1＜4，假设feature1为经验条件。如果测试通过，将决策规则运用于测试样本集，使用决策规则对测试样本集进行测试，将决策规则准确预测的样本与经验规则预测的样本进行对比，是否有新增识别样本；如果有，则将决策规则与经验规则合并到一起上线，如果没有，则从训练样本集中剔除出被决策规则准确命中的样本，形成新的训练样本集，重复步骤102到步骤107的过程，并将历次决策规则预测的样本累加，得到累加预测样本集合。累加预测样本集合与经验规则预测的样本进行比较，直到累加预测样本集合与经验规则预测的样本相比有新增识别样本为止。

保留每一次抽取的决策规则，并将所有抽取的决策规则和经验规则合并在一起，上线到爬虫识别拦截系统。为了尽可能多地识别到测试样本集中的爬虫样本，需要重复以上步骤，采用多轮测试对历次单条决策规则预测的样本与经验规则预测的样本进行比较，判断是否有新增识别样本，从而得到尽可能多的决策规则，尽可能提高爬虫识别召回率。

如图3所示，一种提升爬虫识别召回率的处理装置，包括：

模型训练模块，用于使用训练样本集对所述决策树模型进行训练；在此之前，根据某一用户在一定时间段内的多次访问请求的日志信息，观察日志信息并确定该用户的访问行为是否为爬虫攻击，是则该用户为spider，标签值为正；否则该用户为norma l，标签值为负；按以上方法为一段时间内所有用户建立正标签或负标签；同时根据某一时段用户访问的web日志中的状态码的种类、个数及各种类占比，某一时段用户访问的网页请求数，请求种类及占比，提取用户数据的重要特征信息；对多个带有标签值的用户数据根据提取的重要特征信息构造统计特征，建立统计样本。标签值为正的样本为正样本，代表该用户为爬虫用户，标签值为负的样本为负样本，代表该用户为正常用户；并按一定比例，将统计样本分成训练样本集和测试样本集；本实施例中，选择全部样本的70％作为训练样本集，全部样本的30％作为测试样本集。

规则选择模块，用于在每一个决策树模型的多条决策流中使用抽取规则选择决策流，形成决策规则；对于决策树集成模型，通常计算复杂，在有大规模访问请求的网站上，对每个用户的请求进行模型预测时延迟较大，不利于模型上线部署，由于决策树模型进行预测时采用的是少数服从多数的投票规则，决策树集成模型的整体预测精确率很难达到100％精确率要求。为了保证预测的精确率尽可能高，需要从集成的决策树模型中提取决策流以形成决策规则。提取出的决策规则还要发送给预测模块和规则合并模块。

测试模块，用于对所述决策规则进行测试；验证决策规则的精确率及鲁棒性。

第一判断模块，用于判断测试精确率是否达到预设数值，如果是，触发预测模块，如果否，触发调试模块；第一判断模块用来判断测试精确率是否达到预设数值，是则通过测试，并触发预测模块；如果测试精确率没有达到预设数值，则触发调试模块。

预测模块，用于使用经验规则和所述决策规则对测试样本集进行预测，获得预测样本；确定历次预测样本的累加预测样本集合；预测模块的作用为使用经验规则对测试样本进行预测，得到预测样本，经第二判断模块判断预测样本是否符合要求，如不符合要求，需要返回规则选择模块重新抽取决策规则，并经多次循环后，将历次过程中的预测样本进行累加，得到累加的预测样本集合。

第二判断模块，用于将所述累加预测样本集合与使用经验规则预测出的样本进行对比，判断是否存在新增样本，如果是，触发规则合并模块；

规则合并模块，用于将历次形成的决策规则与所述经验规则合并作为新的爬虫识别规则。

当第二判断模块判断到不存在新增样本时，则触发剔除模块，用于从训练样本集中剔除预测样本，将剔除预测样本后新的训练样本集发送至模型训练模块；剔除模块将前面预测模块预测到的预测样本从训练样本集中剔除，并形成新的训练样本集，发送至模型训练模块，使用新的训练样本集再次对模型进行训练。

规则选择模块在每一个决策树模型的多条决策流中选择叶节点预测值为正且基尼系数值≤m的叶节点所在的决策流作为决策规则。

调试模块对抽取规则进行调试的手段包括新增经验条件和/或调整特征划分数值。

基于本发明的提升爬虫识别召回率的方法及装置还提出了一种计算机可读存储介质，存储介质上存储有计算机程序，程序被处理器执行时实现上文所述方法的步骤。

基于本发明的提升爬虫识别召回率的方法及装置还提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现上文所述方法的步骤。

需要特别说明，精确率衡量预测结果是否可靠，召回率衡量预测结果是否完全覆盖所有攻击样本。精确率与召回率是一对相互矛盾的统计量，一个好的模型应该精确率与召回率都要很高，但实际上很难达到这种要求。通常需要适应业务要求，合理选用合适的精确率和召回率指标来指导模型的选择。特别地，在爬虫攻击的检测中，要求精确率100％，同时召回率尽可能地高，就是为了避免被模型识别为爬虫的样本其实是正常用户这种误判情况发生。本发明的提高爬虫识别召回率的方法，可以在保证精确率100％的前提下，通过集成模型树算法，尽可能的提高爬虫识别召回率。

上面描述的内容可以单独地或者以各种方式组合起来实施，而这些变型方式都在本发明的保护范围之内。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包含一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个…”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制。尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种提升爬虫识别召回率的方法，包括：

步骤3，对所述决策规则进行测试；

步骤5，对抽取规则进行调试，转回至步骤3；

步骤6，使用所述决策规则对测试样本集进行预测，获得预测样本；对历次预测样本累加，得到累加预测样本集合；

步骤7，将所述累加预测样本集合与使用经验规则预测出的样本进行对比，判断是否存在新增样本，如果是，执行步骤8；

步骤8，将历次形成的决策规则与所述经验规则合并作为爬虫识别规则。

2.如权利要求1所述的提升爬虫识别召回率的方法，其特征在于，所述步骤7中判断不存在新增样本时，从所述训练样本集中剔除所述预测样本，转回至所述步骤1。

3.如权利要求1所述的提升爬虫识别召回率的方法，其特征在于，所述在每一个决策树模型的多条决策流中按抽取规则选择决策流的方法为在所有决策流中选取叶节点预测值为正且基尼系数值≤m的叶节点所在的决策流作为决策规则。

4.如权利要求1所述的提升爬虫识别召回率的方法，其特征在于，所述的对抽取规则进行调试的手段包括，新增经验条件和/或调整特征划分数值。

5.一种提升爬虫识别召回率的处理装置，其特征在于，包括：

模型训练模块，用于使用训练样本集对所述决策树模型进行训练；

测试模块，用于对所述决策规则进行测试；

预测模块，用于使用经验规则和所述决策规则对所述测试样本集进行预测，获得预测样本；确定历次预测样本的累加预测样本集合；

6.如权利要求5所述提升爬虫识别召回率的处理装置，其特征在于，当所述第二判断模块判断到没有新增样本时则触发剔除模块，所述剔除模块用于从所述训练样本集中剔除所述预测样本，将剔除所述预测样本后的训练样本集发送至模型训练模块。

7.如权利要求5所述提升爬虫识别召回率的处理装置，其特征在于，所述规则选择模块在每一个决策树模型的多条决策流中选择叶节点预测值为正且基尼系数值≤m的叶节点所在的决策流作为决策规则。

8.如权利要求5所述的提升爬虫识别召回率的处理装置，其特征在于，所述调试模块对抽取规则进行调试的手段包括新增经验条件和/或调整特征划分数值。

9.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，所述程序被处理器执行时实现权利要求1至4中任意一项所述方法的步骤。

10.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1至4中任意一项所述方法的步骤。