CN111914905A

CN111914905A - 一种基于半监督的反爬虫系统及设计方法

Info

Publication number: CN111914905A
Application number: CN202010655940.XA
Authority: CN
Inventors: 简军; 高�熙; 蔡月月
Original assignee: Beijing Renrenyuntu Information Technology Co ltd
Current assignee: Beijing Renrenyuntu Information Technology Co ltd
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2020-11-10
Anticipated expiration: 2040-07-09
Also published as: CN111914905B

Abstract

本发明公开了一种基于半监督的反爬虫系统及设计方法，包括衍生特征向量，无监督聚类成簇，专家规则评估，强化规则，机器学习，输出识别爬虫概率结果；通过无监督算法对请求行为进行聚类得到不同的簇；通过专家规则对不同的簇行为进行爬虫概率计算；对于概率高于某个阈值的行为添加到规则系统里；对于概率在某个阈值范围的行为作为维度送进机器学习系统进行训练和预测，能够解决爬虫行为多变的问题并提高防护性能，降低误杀风险。

Description

一种基于半监督的反爬虫系统及设计方法

技术领域

本发明属于计算机、网络数据安全和数据分析技术领域，尤其涉及一种基于半监督的反爬虫系统及设计方法。

背景技术

大数据时代，网络爬虫的现象与日俱增，网络爬虫的形式和方法也是千变万化，有的按照一定的规则，自动的抓取网页信息，还有的人为爬取一些用户信息来用于商业用途。如此一来，肆意爬取给服务器造成了很大的压力，而且不能给该网站带来新的用户，造成了很多成本的浪费。于是，反爬虫也越来越受到严峻的挑战。而现有反爬方法通常采用的分析url路径，User-Agent，hearders，cookie等字段以及流量统计来制定规则做决策，这样的方式虽然可以起到一定的效果，但是随着爬取方式的变化，这种反爬虫方法不能及时发现，仍然不能起到有效的防护。

发明内容

为了解决上述已有技术存在的不足，针对变化的爬虫行为进行及时发现和确定，做到精准的防护。本发明提出一种基于半监督的反爬虫系统及设计方法。本发明的具体技术方案如下：

一种基于半监督的反爬虫系统设计方法，其特征在于，包括以下步骤：

A1：衍生特征向量；基于请求数据衍生出需要的特征向量，所述特征向量包含请求的参数特征和行为特征；

A2：无监督聚类成簇；通过无监督聚类算法对请求行为聚类得到不同的簇，簇内间距低于设定的第一阈值，簇与簇之间的间距高于设定的第二阈值；无监督聚类算法包括Kmeans、PCA或TSNE中的至少一种；

A3：专家规则评估；基于现有数据和专家经验，制定符合指标要求的专家规则；通过专家规则对不同的簇行为计算爬虫概率；爬虫概率高于设定的第三阈值的行为，经过观察，转化为专家规则；

A4：强化规则；对于概率在设定范围内的请求行为，作为有监督的机器学习的输入维度进行训练和预测；

A5：机器学习；

A6：输出识别爬虫概率结果；

进一步地，所述步骤A1的具体过程为：

从请求数据中提取请求时段，次数，时间间隔，请求内容，访问路径集合，请求中的cookie，UserAgent和headers所包含的信息；

对这些原始的信息进行数据的衍生，在衍生的过程中将特征区分为用户维度和访问维度，用户维度包含用户设备、指纹和ip，能够粗略的标识不同用户的维度；访问维度包含请求的url、请求的时间、cookie、UserAgent和referer；

将用户维度和访问维度交叉组合，聚类衍生，得到数百个衍生的维度；

计算衍生的维度的提升度，根据提升度的分布选择筛选维度的阈值，筛出有效的维度特征。

进一步地，所述步骤A2中的无监督聚类算法包括Kmeans、PCA或TSNE中的至少一种，所述步骤A2的具体过程为：

先排查异常点进行，异常点包含不符合业务逻辑或不符合数据分布的点；

采用融合聚类方法，融合采用投票方式，通过遍历簇的个数，寻找轮廓系数最接近1的分类结果，且分类结果需要满足在两种以上的聚类算法中，有更多的点的簇类别保持一致。例如：假设分为两类簇，用三种聚类算法进行投票，对于第一种分类结果，90％的点的簇类别没有发生变化，对于第二种分类结果，80％的点的簇类别没有发生变化，那么认为第一种分类结果更稳定可靠。

进一步地，所述步骤A3的具体过程为：

通过数据分析和反爬专家经验制定专家规则；

以专家规则为标准来计算簇的爬虫概率；

根据各类簇的概率分布设定第三阈值，爬虫概率高于第三阈值的簇，进行轮廓行为的提取，轮廓行为提取是使用最少的特征维度保证最多的簇内点落在此轮廓行为里；

筛选稳定性较高的爬虫轮廓行为，取不同的时间窗口进行psi的稳定性计算，对于不稳定的轮廓行为保存下来后面的系统中再用；对于稳定的轮廓行为做准确，召回和误杀指标的观察，经过观察，符合专家规则的指标要求则转化为专家规则，不符合专家规则的指标要求则保存下来后面再用。

进一步地，所述步骤A5的机器学习的处理算法包括决策树、随机森林或xgboost中的至少一种。

进一步地，所述步骤A6得到的识别爬虫概率结果由高维的机器学习系统和低维的规则系统综合得到，具体过程为：将步骤A5的输出结果和步骤A3得到的五十条专家规则作为步骤A6的输入，用逻辑回归的模型学习最佳权重参数，得到综合的精准的爬虫概率。

一种基于半监督的反爬虫系统，其特征在于，包括：数据衍生模块、聚类模块、专家规则模块、计算概率模块、机器学习模块和爬虫概率预测模块，其中，

所述数据衍生模块，基于请求数据衍生出需要的特征向量，所述特征向量包含请求的参数特征和行为特征；

所述聚类模块，将所述数据衍生模块衍生出的特征向量，做无监督聚类算法，将请求的行为分成不同的簇，簇内间距低于设定的第一阈值，簇与簇之间的间距高于设定的第二阈值；

所述专家规则模块，基于现有数据和专家经验，制定符合指标要求的专家规则；

所述计算概率模块，用于对所述聚类模块筛选出的簇，通过所述专家规则模块制定的专家规则计算簇中的爬虫概率；爬虫概率高于设定的第三阈值的行为，经过观察，转化为专家规则；

所述机器学习模块，将簇中的爬虫概率在设定范围内的请求行为，作为有监督的机器学习的输入维度进行训练和预测；

所述爬虫概率预测模块综合所述计算概率模块和所述机器学习模块的输出结果得到识别爬虫概率结果。

一种基于半监督的计算机可读存储介质，其上存储计算机程序，其特征在于，所述程序被处理执行时实现所述一种基于半监督的反爬虫系统设计方法的任一项所述方法的步骤。

本发明的有益效果在于：

1.对远端的恶意代理，爬虫，僵尸网络，低频爬取等发出的请求进行了识别和学习，有效的监测通过伪装的爬虫，保证服务端数据的安全和业务的正常开展，提高有效访问的同时降低了误杀的风险，提高了查订比。

2.解决了爬虫行为在变化而策略不变的弊端，层层把关，提高了识别爬虫的准确性，降低了误杀率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，通过参考附图会更加清楚的理解本发明的特征和优点，附图是示意性的而不应理解为对本发明进行任何限制，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，可以根据这些附图获得其他的附图。其中：

图1是本发明的一种基于半监督的反爬虫系统设计方法的流程图；

图2是本发明的设计方法的衍生特征向量流程图；

图3是本发明的设计方法的无监督聚类成簇的流程图；

图4是本发明的设计方法的专家规则评估体流程图；

图5是本发明的设计方法的强化规则流程图；

图6是本发明的设计方法的机器学习流程图；

图7是本发明的设计方法的最终给出爬虫概率的流程图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

如图1所示，

本发明提出的一种基于半监督的反爬虫装置、方法和存储介质，对远端的恶意代理，爬虫，僵尸网络，低频爬取等发出的请求进行了识别和学习，有效的监测通过伪装的爬虫，保证服务端数据的安全和业务的正常开展，提高有效访问的同时也降低了误杀的风险，提高了查订比。

具体地，一种基于半监督的反爬虫系统设计方法，其特征在于，包括以下步骤：

A1：衍生特征向量；基于请求数据衍生出需要的特征向量，特征向量包含请求的参数特征和行为特征；

A5：机器学习；

A6：输出识别爬虫概率结果；

步骤A1的具体过程为：

步骤A2中的无监督聚类算法包括Kmeans、PCA或TSNE中的至少一种，步骤A2的具体过程为：

步骤A3的具体过程为：

通过数据分析和反爬专家经验制定专家规则；

以专家规则为标准来计算簇的爬虫概率；

专家规则的准确，召回，误杀率都达到了较高的要求。

步骤A5的机器学习的处理算法包括决策树、随机森林或xgboost中的至少一种。

步骤A6得到的识别爬虫概率结果由高维的机器学习系统和低维的规则系统综合得到，具体过程为：将步骤A5的输出结果和步骤A3得到的五十条专家规则作为步骤A6的输入，用逻辑回归的模型学习最佳权重参数，得到综合的精准的爬虫概率。

本发明还公开了一种基于半监督的反爬虫系统，其特征在于，包括：数据衍生模块、聚类模块、专家规则模块、计算概率模块、机器学习模块和爬虫概率预测模块，其中，

数据衍生模块，基于请求数据衍生出需要的特征向量，特征向量包含请求的参数特征和行为特征；

聚类模块，将数据衍生模块衍生出的特征向量，做无监督聚类算法，将请求的行为分成不同的簇，簇内间距低于设定的第一阈值，簇与簇之间的间距高于设定的第二阈值；

专家规则模块，基于现有数据和专家经验，制定符合指标要求的专家规则；

计算概率模块，用于对聚类模块筛选出的簇，通过专家规则模块制定的专家规则计算簇中的爬虫概率；爬虫概率高于设定的第三阈值的行为，经过观察，转化为专家规则；

机器学习模块，将簇中的爬虫概率在设定范围内的请求行为，作为有监督的机器学习的输入维度进行训练和预测；

爬虫概率预测模块综合计算概率模块和机器学习模块的输出结果得到识别爬虫概率结果。

本发明还公开了一种基于半监督的计算机可读存储介质，其上存储计算机程序，其特征在于，程序被处理执行时实现一种基于半监督的反爬虫系统设计方法的任一项所述方法的步骤。

在本发明中，术语“第一”、“第二”、“第三”、“第四”仅用于描述目的，而不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上，除非另有明确的限定。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于半监督的反爬虫系统设计方法，其特征在于，包括以下步骤：

A5：机器学习；

A6：输出识别爬虫概率结果。

2.根据权利要求1所述的一种基于半监督的反爬虫系统设计方法，其特征在于，所述步骤A1的具体过程为：

3.根据权利要求1所述的一种基于半监督的反爬虫系统设计方法，其特征在于，所述步骤A2中的无监督聚类算法包括Kmeans、PCA或TSNE中的至少一种，所述步骤A2的具体过程为：

采用融合聚类方法，融合采用投票方式，通过遍历簇的个数，寻找轮廓系数最接近1的分类结果，且分类结果需要满足在两种以上的聚类算法中，有更多的点的簇类别保持一致。

4.根据权利要求1所述的一种基于半监督的反爬虫系统设计方法，其特征在于，所述步骤A3的具体过程为：

通过数据分析和反爬专家经验制定专家规则；

以专家规则为标准来计算簇的爬虫概率；

5.根据权利要求1所述的一种基于半监督的反爬虫系统设计方法，其特征在于，所述步骤A5的机器学习的处理算法包括决策树、随机森林或xgboost中的至少一种。

6.根据权利要求1所述的一种基于半监督的反爬虫系统设计方法，其特征在于，所述步骤A6得到的识别爬虫概率结果由高维的机器学习系统和低维的规则系统综合得到，具体过程为：将步骤A5的输出结果和步骤A3得到的五十条专家规则作为步骤A6的输入，用逻辑回归的模型学习最佳权重参数，得到综合的精准的爬虫概率。

7.一种基于半监督的反爬虫系统，其特征在于，包括：数据衍生模块、聚类模块、专家规则模块、计算概率模块、机器学习模块和爬虫概率预测模块，其中，

8.一种基于半监督的计算机可读存储介质，其上存储计算机程序，其特征在于，所述程序被处理执行时实现权利要求1-6所述方法的步骤。