CN111984848A

CN111984848A - 一种基于分布式的网络自适应分类爬虫方法

Info

Publication number: CN111984848A
Application number: CN202010868327.6A
Authority: CN
Inventors: 王之琼; 信俊昌; 汪宇; 闫东蕾; 雷盛楠; 王司亓; 唐俊日; 隋玲
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2020-08-26
Filing date: 2020-08-26
Publication date: 2020-11-24

Abstract

本发明公开一种基于分布式的网络自适应分类爬虫方法，属于网络爬虫和反爬虫技术领域，该方法首先是采用支持向量基SVM对各信息源网站进行反爬虫技术的精确分类；然后根据反爬虫手段的分类结果选择与之相抗衡的爬虫策略，最后基于分布式的自适应爬虫技术进行数据爬取，对分类模型进行评估。该方法可以用于舆情大数据的获取。这样根据反爬虫技术的不同分类，能更加精准有效的采用与之相抗衡的爬虫技术破解，快速获取信息源的数据。极大程度上减少了不必要的测试被反爬手段规避掉的风险。

Description

一种基于分布式的网络自适应分类爬虫方法

技术领域

本发明涉及网络爬虫和反爬虫技术领域，尤其涉及一种基于分布式的网络自适应分类爬虫方法。

背景技术

信息源网站的内容数据是网站服务提供商的主要收益来源之一，网络供应商出于保护数据的目的，会采取手段避免网站被非搜索引擎之外的爬虫访问。信息源的反爬虫手段，即一系列反爬虫措施的集合，应运而生，这就对数据的有效获取很不利。其反爬虫机制通过预处理请求头、封锁IP、异步加载、使用JS加密算法、设置验证码、多个机制结合等措施达到封锁爬虫的目的。以并发封锁为例，如果爬取频率过低；虽然可以降低资源消耗，规避信息源访问阈值限制，但是会造成数据爬取效率低等问题；如果爬取频率过高，虽然可以提高数据获取效率，但是很可能受到信息源反爬虫技术的并发限制技术影响，导致爬虫IP被封锁的情况。因此，如果信息源的反爬虫技术与所使用的爬虫技术产生冲突，会导致数据获取的错误甚至完全失效。因此如何突破反爬虫手段的限制，成为了数据获取的难点。

由于大型信息源网站的反爬虫机制、网络信息噪音、舆情数据杂乱等因素的共同影响，准确、高效的获取海量高质量舆情数据十分困难。因此精确地确定信息源的反爬虫机制，并选择合适的数据获取策略，“有的放矢”，对大大提高数据信息源获取效率起着至关重要的作用。目前虽然很多工具对信息数据的爬取有一定效果，但是并没有对数据源网站的反爬手段进行分类分析。反爬策略也不一定比较全面有效。

发明内容

针对上述现有技术的不足，本发明提供一种基于分布式的网络自适应分类爬虫方法。

为解决上述技术问题，本发明所采取的技术方案是：一种基于分布式的网络自适应分类爬虫方法，包括如下步骤：

步骤1：获取一些目标信息源网站的结构信息，提取各网站的特征进行分析，查找到各网站的反爬手段存在的特性，根据反爬手段存在的特性来判断各网站区分爬虫程序和正常用户的手段，过程如下：

步骤1.1：观察其javascript代码，利用Navigator对象来判断客户端是否通过WebDriver驱动浏览器，达到Selenium检测手段；

步骤1.2：信息源网站通过检测浏览器请求头中的User-Agent值与navigator；将userAgent属性值与navigator.platform属性值对比，当不一致时判断为爬虫程序；

步骤1.3：根据客户端向服务器端发出网络请求的频率，将访问频率过高的客户端视为爬虫程序；

步骤1.4：隐藏用于检测爬虫程序的链接，被隐藏的链接不显示在页面中，正常用户无法访问，但爬虫程序有可能将该链接放入待爬队列，并向该链接发起请求，从而区分出正常用户和爬虫程序；

步骤1.5：利用限制用户的权限及验证手段来阻碍爬虫程序获取目标数据，如验证码和过滤器。

步骤2：利用已有的信息源的网站结构信息，构建网站反爬特征的数据集，过程如下：

对步骤1检测到的各网站的反爬手段进行分类并添加分类标签，构建网站的反爬特征数据集；

所述分类标签包括：selenium浏览器驱动检测，User-Agent黑名单手段，封锁IP，设置陷阱链和校验验证码。

步骤3：建立机器学习支持向量机SVM分类模型，采用合页损失函数作为模型的损失函数，并初始化模型参数；

步骤4：利用K折交叉验证与步骤3建立的SVM分类模型结合的方法，对步骤2的数据集进行训练测试，得到模型分类的准确率，过程如下：

步骤4.1：利用K折交叉验证将数据集中的全部数据分成k个不相交的子集；

步骤4.2：从分好的k个不相关的子集中，拿出一个作为测试集，其它k-1个作为训练集；

步骤4.3：使用k-1个训练集训练SVM模型，并计算SVM模型在测试集上的准确率；

步骤4.4：重复步骤4.2和步骤4.3，每次从k个不相交的子集中选取一个不同的子集作为测试集，其余作为训练集，得到模型在k种不同情况下的准确率；

步骤4.5：计算k种不同情况下的准确率的平均值，将平均后的准确率作为最终的模型准确率。

步骤5：根据步骤4得到的模型分类准确率对步骤3的模型参数进行更新迭代，得到更新后的分类模型；

步骤6：重复步骤4和步骤5，直到分类模型的准确率达到预定的精度或者迭代次数达到预定的数值，停止更新迭代，得到的分类模型认为是最优分类模型；

步骤7：利用步骤6得到的最优分类模型，对已有的信息源网站进行分布式自适应分类，然后预爬取数据，观察爬虫程序的运行状态，对模型进行评估，过程如下：

步骤7.1：对已有的信息源网站进行实验，采用最优分类模型对网站的反爬虫手段进行分类，得到各个网站的反爬虫手段的类型；

步骤7.2：找到各反爬虫手段的类型对应的与之相抗衡的爬虫手段；

步骤7.3：对相应的网站制作具体的爬虫探针，针对不同的网站结构制作爬虫探针，预爬取数据；

步骤7.4：观察网页服务器对预爬取的爬虫的反馈结果，若网页服务器对爬虫探针返回错误的状态码，表明分类结果错误；若能较快的获取到预爬取的结果，则表明分类的正确；

步骤7.5：根据步骤7.4得到的大量的反馈结果，对构建的模型进行评估，调整模型的参数，以达到相应的评价标准。

采用上述技术方案所产生的有益效果在于：本发明提供的方法通过机器学习算法抽取信息源网站的反爬手段作为分类标签，然后对其抽取抽象的特征向量，训练模型，将后续的信息源网站进行训练，按照分类的准确性，对分类的结果采用与之相抗衡的爬虫手段进行自适应爬取。这样可以对信息源网站进行有的放矢，做到有效率的爬取网站信息数据。

附图说明

图1为本发明实施例中基于分布式的网络自适应分类爬虫方法的流程图；

图2为本发明实施例中基于分布式的网络自适应分类爬虫系统的架构图；

图3为本发明实施例中Navigator检测过滤原理图；

图4为本发明实施例中后端实现访问频率限制的逻辑图；

图5为本发明实施例中分布式爬虫的主从结构图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本实施例的基于分布式的网络自适应分类爬虫系统如图2所示，该系统采用基于分布式的网络自适应分类爬虫方法如图1所示，包括如下步骤：

步骤1.1：观察其javascript代码，利用Navigator对象来判断客户端是否通过WebDriver驱动浏览器，达到Selenium检测手段；例如，由于Selenium通过WebDriver驱动浏览器，客户端的webdriver属性存在，可能就无法获取目标数据。可以看到网站开发者可以利用Navigator对象来完成对客户端是否使用WebDriver的判断。即当我们使用的渲染工具有webdriver属性时，就会被Navigator检测到，Navigator检测过滤原理如图3所示；

步骤1.2：信息源网站通过检测浏览器请求头中的User-Agent值与navigator；将userAgent属性值与navigator.platform属性值对比，当不一致时判断为爬虫程序；例如，User-Agent中的操作系统显示为Win32，如果navigator.platform属性值与此不一致，将会被视为爬虫程序。甚至能检测到爬虫程序用的协议包。

步骤1.3：根据客户端向服务器端发出网络请求的频率，将访问频率过高的客户端视为爬虫程序；访问频率是一个描述网络请求频繁度的一个量。正常用户浏览网页频率，不会像爬虫程序那么高。开发者可能会将访问频率过高的客户端视为爬虫程序。开发者反爬手段会找到并确定客户端的身份标识。然后根据标识记录该客户端的请求次数，并且拒绝单位时间内请求次数过多的客户端请求。可以用Nginx实现根据IP地址限制爬虫访问频率的效果。

除了IP地址外，用于确定客户端身份的标识还有登录后的用户凭证(如Cookie和Token)

Cookie和Token通常由后端程序生成，后端程序会维护用户身份标识和单位时间内的请求次数队列。如果队列中没有该用户标识记录或单位时间内请求次数未达到阈值，则响应该请求，并且将队列中的请求次数进行累加，反之则拒绝该请求后端实现访问频率限制的逻辑。后端实现访问频率限制的逻辑如图4所示。

本实施例中，SVM分类模型采用一对多的分类方法，设置分类的迭代次数为5000次，学习率采用带动量的学习率项。

SVM支持向量机的目标就是寻找到一个最优超平面使得步骤4.3中选取出来的样本测试集与超平面之间的间隔最大，从而对样本实现分类。分类超平面表示为：

ω^Tx+b＝0 (1)

式中：ω为超平面的法向量；b为常数，表示数据直线拟合的截距；x表示数据的点，即步骤1中提到的网站的结构信息，包括网站的head头部信息，网站的url,浏览器驱动的特定属，验证码图片信息，也就是构建的训练集中的数据。每类数据到最优超平面的几何间隔为1/||ω||,由此寻找最优超平面，等价于最小化1/2||ω||²。为了解决最小化问题，引入Lagrange函数，转化为对偶问题：

式中α_i＞0为Lagrange乘数；求解对偶问题，首先固定α，让L关于ω和b最小化，分别对ω和b求偏导数，使其等于零，带入后得到：

对于线性不可分的样本，支持向量机是把输入向量投射到更高维度，在更高维度实现线性可分，找寻最优超平面。根据这样的方法训练SVM模型。

步骤7：利用步骤6得到的最优分类模型，对已有的信息源网站进行分布式自适应分类，分布式爬虫的主从结构图如图5所示。然后预爬取数据，观察爬虫程序的运行状态，对模型进行评估，过程如下：

步骤7.3：对相应的网站制作具体的爬虫探针，针对不同的网站结构制作爬虫探针，预爬取数据，过程如下：

步骤7.3.1：构造请求头的代理池，然后可以去获取免费的代理IP或者购买一批高匿IP制作代理IP池，为写爬虫探针程序，和爬虫程序做准备；

步骤7.3.2：对上述做好分类的反爬虫手段，做一个分析，争取，每一类反爬虫手段，都能精准的去用相适应的爬虫手段去破解。常见的反爬虫手段有，比如用户请求Headers设置，有些数据使用过js加密，ajax请求来获取数据，以及根据浏览器cookie的信息来判别用户身份信息，利用图片验证码来验证用户的合法性等。

步骤7.3.3：对上述反爬虫手段，可以，大致采用与之相抗衡的爬虫手段去破解，比如破解用户的请求Headers，可以在爬取之前，在请求头做一些伪装，比如ajax请求获取数据，可以在发送的请求中修改相应的信息，也可以使用PhantomJS和Selenium调用浏览器内核，使用Selenium模拟人为操作网页，并解析页面中的js脚本，最终获取数据。图片验证码可以使用使用python的第三方库tesserocr，也可以使用selenium模拟人去拖动滑块等。

步骤7.3.4：然后对相应的网站制作具体的爬虫探针，针对不同的网站结构制作爬虫探针，预爬取数据。

Claims

1.一种基于分布式的网络自适应分类爬虫方法，其特征在于，包括如下步骤：

步骤1：获取一些目标信息源网站的结构信息，提取各网站的特征进行分析，查找到各网站的反爬手段存在的特性，根据反爬手段存在的特性来判断各网站区分爬虫程序和正常用户的手段；

步骤2：利用已有的信息源的网站结构信息，构建网站反爬特征的数据集；

步骤4：利用K折交叉验证与步骤3建立的SVM分类模型结合的方法，对步骤2的数据集进行训练测试，得到模型分类的准确率；

步骤7：利用步骤6得到的最优分类模型，对已有的信息源网站进行分布式自适应分类，然后预爬取数据，观察爬虫程序的运行状态，对模型进行评估。

2.根据权利要求1所述的一种基于分布式的网络自适应分类爬虫方法，其特征在于：所述步骤1的过程如下：

3.根据权利要求1所述的一种基于分布式的网络自适应分类爬虫方法，其特征在于：所述步骤2的过程为：对步骤1检测到的各网站的反爬手段进行分类并添加分类标签，构建网站的反爬特征数据集；

4.根据权利要求1所述的一种基于分布式的网络自适应分类爬虫方法，其特征在于：所述步骤4的过程如下：

5.根据权利要求1所述的一种基于分布式的网络自适应分类爬虫方法，其特征在于：所述步骤7的过程如下：

6.根据权利要求5所述的一种基于分布式的网络自适应分类爬虫方法，其特征在于：所述预爬取数据的过程中，将爬虫程序运行在分布式集群上，采用主从结构的分布式结构，使爬虫程序运行的效率更高。