CN112765437B

CN112765437B - 一种动态检测失效流量的网络爬虫方法

Info

Publication number: CN112765437B
Application number: CN202110086472.3A
Authority: CN
Inventors: 秦康; 赵小敏
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2022-05-17
Anticipated expiration: 2041-01-22
Also published as: CN112765437A

Abstract

本发明涉及一种动态检测失效流量的网络爬虫方法，包括以下步骤，首先通过分析网络请求信息构建动态检测失效流量模型的数据集，然后设计出动态检测失效流量的方法，接着对URL队列中的信息进行读取并且对Cookie等信息进行封装后发送请求，提取返回数据信息，并对返回数据信息进行失效流量检测，最后对重复返回数据信息进行处理，如是有效数据则持久化存储。本发明弥补了现有聚焦爬虫和增量爬虫在Cookie失效问题的处理上和数据重复处理上的不足之处，降低了爬取数据的失效和重复概率，对爬虫系统的设计提供了可借鉴的方案，提高了爬虫系统的整体性能。

Description

一种动态检测失效流量的网络爬虫方法

技术领域

本发明涉及网络爬虫技术领域，尤其涉及一种动态检测失效流量的网络爬虫方法。

背景技术

互联网中的数据是海量的，如何自动高效地获取互联网中感兴趣的信息并为我们所用是一个重要的问题，而网络爬虫技术就是为了解决这些问题而生的。网络爬虫具体可分为通用爬虫、增量爬虫和聚焦爬虫三大类。通用爬虫在搜索引擎上应用十分广泛，技术也相对比较成熟；增量爬虫的核心思想是去除重复的URL，但由于相同的URL爬取内容经常变化，其通用性较差，难以得到广泛应用；在大数据迅速发展的今天，聚焦爬虫因其具有一定的目的性，能够更好地满足爬取需求，为大数据分析提供可靠的数据支撑，已经得到了广泛的应用，爬取的数据在数据分析和深度学习等领域具有广泛的应用价值。

随着网络技术的不断发展，网络上产生的数据量爆炸式地增长，而各种组织和个人也越来越注重对数据的保护，网络爬虫的难度也逐渐增加。这往往体现在进行聚焦爬虫和增量爬虫时，同一客户端对同一服务器访问过高，造成服务器负担过重，服务器采用技术手段限制爬虫，导致爬虫系统的稳定性和爬取的数据量均受到影响。传统的爬虫方法无法动态检测失效流量并替换新的请求头，容易造成重复爬取和资源浪费等现象。

发明内容

本发明为克服上述的不足之处，目的在于提供一种动态检测失效流量的网络爬虫方法，本发明结合用户的基本信息，使用Python的Requests模块，采用BP神经网络方法对失效流量进行动态检测，通过哈希算法对返回内容进行摘要，用来判断是否为重复爬取，对于请求头中失效的Cookie，对其及时替换并重新访问，从而达到降低服务器负担和确保爬虫数据完整性的目的。

本发明是通过以下技术方案达到上述目的：一种动态检测失效流量的网络爬虫方法，包括如下步骤：

(1)获取目标应用的网络请求信息，通过代理的方式提取网络请求特征，构建动态检测失效流量模型的数据集；

(2)构建机器学习BP神经网络的分类模型，将步骤(1)中的部分数据集作为训练集，剩余部分作为测试集，得到动态检测失效流量的BP神经网络模型；

(3)分析网络请求，将请求相关的URL和Cookie数据持久化存储；

(4)对数据库中的请求URL和Cookie读取并加入各自的队列中，分别从队列中取出请求的相关URL和Cookie进行封装，发送请求；

(5)利用步骤(2)得到的动态检测失效流量模型，识别判断步骤(4)中请求的返回信息，对失效的流量信息则返回步骤(4)，将其URL重新加入步骤(4)的队列中等待重新封装；

(6)计算返回数据包中内容信息的哈希值并判断是否重复；

(7)对返回不重复的内容信息进行持久化存储。

作为优选，所述步骤(1)具体如下：

(1.1)选取聚焦爬虫的目标应用，通过分析软件设置代理软件的证书，配置代理接口，在目标应用的系统中安装证书；

(1.2)对网络爬虫的目标系统进行模拟点击事件，对获取的数据包分析并提取，构建一个可被BP神经网络接收的输入向量：

其中，X₁、X₂、X₃、X₄、X₅、X₆分别代表提取请求的类型、返回数据量大小、请求次数、请求协议类型、请求响应时间、Cookie被使用次数，通过标注的方式标记该数据包的预测结果，构建出动态检测失效流量模型的数据集。

作为优选，所述步骤(2)得到动态检测失效流量的BP神经网络模型的实现方法如下：

BP神经网络包括输入层、隐藏层和输出层；

1)输入层和输出层设计，模型将请求类型X₁，返回数据量大小X₂，请求次数X₃，请求协议类型X₄，请求响应时间X₅，Cookie被使用次数X₆作为模型的输入，采用3层BP神经网络结构，输出层单个神经元是流量状态的判定结果；

2)输入层6个神经元是流量的对应信息，输出层单个神经元代表流量状态的判定结果，隐含层神经元个数为：

其中，n和m分别代表输入神经元和输出神经元的个数，a为常数；

3)流量的对应信息输入为x_j，各层之间的权值为w_ij，隐含层的阈值为a_j，则隐含层的输出为：

其中，l为隐含层神经元个数；

4)模型中采用的激活函数表达式为：

5)根据隐含层输出的H_j，输出层和隐含层之间连接的权值和阈值分别为w和b，得到输出结果T，其表达式为：

使用梯度下降算法不断调整模型中各层的输入权重和偏置，获得最佳的预测结果，动态检测失效流量模型建立完成。

作为优选，所述步骤(3)具体包括：

(3.1)将请求相关的URL和Cookie数据持久化存储，通过抓包分析软件分析URL及其各参数的含义，提取其请求URL和请求参数信息s_i，相关账户的Cookie信息C_i；

(3.2)通过局部洗牌法将s_i进行重新排序并保存至Redis缓存数据库的队列中，如下式所示：

V_i＝i+r mod(n-i)，i＝1，2,3，...，n

其中，V_i是URL索引洗牌之后的索引位置，i是URL索引，n是索引的个数；

(3.3)将请求URL和请求参数信息V_i，Cookie信息C_i分别持久化至Redis缓存数据库。

作为优选，所述步骤(4)对数据库中的请求URL和Cookie读取并加入各自的队列中，分别从队列中取出请求的相关URL和Cookie进行封装并发送请求，具体包括以下步骤：

(4.1)从Redis队列中分别取出请求URL和请求参数信息V_i和Cookie信息C_i，将V_i作为请求的URL，C_i作为请求的Cookie字段封装进请求头中，同时将请求的User-Agent、Connection和Accept基本请求头信息封装，组成完整的HTTP请求K_i，并将K_i加入请求队列中；

(4.2)从请求队列中取出封装完成的请求信息K_i，通过Python的Requests模块发送请求，得到请求的返回结果R_i。

作为优选，所述步骤(5)具体包括如下步骤：

(5.1)将步骤(4)中请求的返回信息R_i中的请求的类型X₁、返回数据量大小X₂、请求次数X₃、请求协议类型X₄、请求响应时间X₅和Cookie被使用次数X₆作为模型的输入，并输出判定结果；

(5.2)若流量信息被判别为失效流量，将Cookie的失效字段置为1，1表示失效；Cookie的使用次数t的值增加1，丢弃该请求信息，将其URL重新加入步骤(4)所述的URL的队列中等待重新封装；

(5.3)若流量信息未被判别为失效流量，将Cookie的失效字段置为0，0表示有效，Cookie的使用次数t的值增加1；

(5.4)对于失效字段为1且使用次数t达到阈值v₁的Cookie，判定为失效Cookie，将其移出队列；并检查Cookie队列中元素的个数，若元素个数小于v₂，则从库文件中重新提取新的Cookie并加入Cookie队列中。

作为优选，所述步骤(6)具体为：将请求返回的信息通过MD5消息摘要算法进行计算，将计算得到的值与已入库的值进行对比，判断是否有重复的值；若重复，则丢弃请求所返回的数据，若不重复则将该摘要值入库并将数据进行持久化。

作为优选，所述步骤(7)包括：在步骤(6)判断数据没有重复的前提下，将数据进行清洗，并以txt文件的形式输出

本发明的有益效果在于：本发明弥补了现有聚焦爬虫和增量爬虫在Cookie失效问题的处理上和数据重复处理上的不足之处，降低了爬取数据的失效和重复概率，对爬虫系统的设计提供了可借鉴的方案，提高了爬虫系统的整体性能。

附图说明

图1是本发明的方法流程示意图；

图2是本发明实施例的BP神经网络示意图；

图3是本发明实施例的系统结构示意图。

具体实施方式

下面结合具体实施例对本发明进行进一步描述，但本发明的保护范围并不仅限于此：

实施例：如图1所示，一种动态检测失效流量的网络爬虫方法具体如下：

步骤1：获取目标应用的网络请求信息，通过代理的方式提取网络请求特征，构建动态检测失效流量模型的数据集；

针对所需爬取的目标应用，首先需要对应用的网络进行分析，通过诸如Fiddler软件设置代理并在目标系统上安装授权证书的方式获取请求的网络信息，在目标系统上模拟点击事件，通过观察数据包分析软件(如Fiddler)上接收到的请求数据包来分析请求的结构和方式，获取请求的类型X₁、返回数据量大小X₂、请求次数X₃、请求协议类型X₄、请求响应时间X₅和Cookie被使用次数X₆，构建一个可以被BP神经网络接收的输入向量：

通过标注的方式标记该数据包的预测结果，构建出动态检测失效流量模型的数据集。

步骤2：动态检测失效流量方法设计；

本发明所设计的失效流量检测方法是基于BP神经网络的，如图2所示，BP神经网络包括输入层、隐藏层和输出层；

①输入层和输出层设计，模型将请求的请求类型X₁，返回数据量大小X₂，请求次数X₃，请求协议类型X₄，请求响应时间X₅，Cookie被使用次数X₆作为模型的输入，采用3层BP神经网络结构，输出层单个神经元是流量状态的判定结果；

②输入层6个神经元是流量的对应信息，输出层单个神经元代表流量状态的判定结果，隐含层神经元个数为：

其中，n和m分别代表输入神经元和输出神经元的个数，a为常数；通过公式计算，得到隐含层神经元的个数为4。

③流量的对应信息输入为x_j，各层之间的权值为w_ij，隐含层的阈值为a_j，则隐含层的输出为：

其中，l为隐含层神经元个数

④模型中采用的激活函数表达式为：

⑤根据隐含层输出的H_j，输出层和隐含层之间连接的权值和阈值分别为w和b，得到输出结果T，其表达式为：

将上述数据集中请求类型X₁，返回数据量大小X₂，请求次数X₃，请求协议类型X₄，请求响应时间X₅，Cookie被使用次数X₆作为输入，输入到上述设计好的模型中进行训练，使用梯度下降算法不断调整模型中各层的输入权重和偏置，获得最佳的预测结果，从而得到训练好的模型。

步骤3：流量失效检测；

步骤3.1：URL和Cookie初始化，如图3所示，本发明通过诸如Fiddler的数据包分析软件分析请求报文，提取其中的URL和请求参数信息s_i，相关账户的Cookie信息C_i，为防止同一类型的URL访问次数过多，使用局部洗牌法将s_i进行重新排序并保存至Redis缓存数据库的队列中，如下式所示：

V_i＝i+r mod(n-i)，i＝1，2，3，...，n

其中，V_i是URL索引洗牌之后的索引位置，i是URL索引，n是索引的个数，将请求URL和请求参数信息V_i，Cookie信息C_i分别持久化至Redis缓存数据库。

步骤3.2：请求信息的封装，如图3所示，从上述步骤中的队列中分别取出请求URL和请求参数信息V_i和Cookie信息C_i，将V_i作为请求的URL，C_i作为请求的Cookie字段封装进请求头中，同时将请求的User-Agent、Connection和Accept等基本请求头信息封装，组成完整的HTTP请求K_i并将K_i加入请求队列中。

步骤3.3：请求信息的发送，如图3所示，从请求队列中取出封装完成的请求信息K_i，通过Python的Requests模块发送请求，得到请求的返回结果R_i。

步骤3.4：失效流量的检测，将请求的返回信息R_i中的请求的类型X₁、返回数据量大小X₂、请求次数X₃、请求协议类型X₄、请求响应时间X₅和Cookie被使用次数X₆作为模型的输入，并输出判定结果；

若流量信息被判别为失效流量，将Cookie的失效字段l置为1(表示失效)，Cookie的使用次数t的值增加1，丢弃该请求信息，将其URL重新加入URL的队列中等待重新封装；

若流量信息未被判别为失效流量，将Cookie的失效字段l置为0(表示有效)，Cookie的使用次数t的值增加1；

对于失效字段l为1且使用次数t达到阈值v₁的Cookie，判定为失效Cookie，将其移出队列；

检查Cookie队列中元素的个数，若元素个数小于v₂，则从库文件中重新提取新的Cookie并加入Cookie队列中。

步骤4：流量信息的重复性检测，如图3所示，在数据信息重复检测步骤中，为防止信息的重复爬取，将请求返回的数据包内容通过MD5消息摘要算法进行处理，计算返回数据信息T_i的MD5值，同库中的值比较，若库中已存在该值，则丢弃T_i，若不存在，则将数据信息进行清洗后持久化，并以txt的格式输出。

以上的所述乃是本发明的具体实施例及所运用的技术原理，若依本发明的构想所作的改变，其所产生的功能作用仍未超出说明书及附图所涵盖的精神时，仍应属本发明的保护范围。

Claims

1.一种动态检测失效流量的网络爬虫方法，其特征在于，包括如下步骤：

(2)构建机器学习BP神经网络的分类模型，将步骤(1)中的部分数据集作为训练集，剩余部分作为测试集，得到动态检测失效流量的BP神经网络模型；其中得到动态检测失效流量的BP神经网络模型的实现方法如下：

BP神经网络包括输入层、隐藏层和输出层；

其中，l为隐含层神经元个数；

4)模型中采用的激活函数表达式为：

使用梯度下降算法不断调整模型中各层的输入权重和偏置，获得最佳的预测结果，动态检测失效流量模型建立完成；

(3)分析网络请求，将请求相关的URL和Cookie数据持久化存储；

(6)计算返回数据包中内容信息的哈希值并判断是否重复；

(7)对返回不重复的内容信息进行持久化存储。

2.根据权利要求1所述的一种动态检测失效流量的网络爬虫方法，其特征在于：所述步骤(1)具体如下：

3.根据权利要求1所述的一种动态检测失效流量的网络爬虫方法，其特征在于：所述步骤(3)具体包括：

V_i＝i+r mod(n-i)，i＝1，2，3，...，n

4.根据权利要求1所述的一种动态检测失效流量的网络爬虫方法，其特征在于：所述步骤(4)对数据库中的请求URL和Cookie读取并加入各自的队列中，分别从队列中取出请求的相关URL和Cookie进行封装并发送请求，具体包括以下步骤：

5.根据权利要求1所述的一种动态检测失效流量的网络爬虫方法，其特征在于：所述步骤(5)具体包括如下步骤：

6.根据权利要求1所述的一种动态检测失效流量的网络爬虫方法，其特征在于：所述步骤(6)具体为：将请求返回的信息通过MD5消息摘要算法进行计算，将计算得到的值与已入库的值进行对比，判断是否有重复的值；若重复，则丢弃请求所返回的数据，若不重复则将该摘要值入库并将数据进行持久化。

7.根据权利要求1所述的一种动态检测失效流量的网络爬虫方法，其特征在于：所述步骤(7)包括：在步骤(6)判断数据没有重复的前提下，将数据进行清洗，并以txt文件的形式输出。