CN115878877A

CN115878877A - 基于概念漂移的航空服务器访问爬虫的可视检测方法

Info

Publication number: CN115878877A
Application number: CN202211239551.4A
Authority: CN
Inventors: 吴向阳; 胡金明; 金征雷; 赵帅杰
Original assignee: Hangzhou Ruicheng Information Technology Co ltd; Hangzhou Dianzi University
Current assignee: Hangzhou Ruicheng Information Technology Co ltd; Hangzhou Dianzi University
Priority date: 2022-10-11
Filing date: 2022-10-11
Publication date: 2023-03-31

Abstract

本发明公开了基于概念漂移的航空服务器访问爬虫的可视检测方法，后端解释航空服务器的访问日志数据，抽取关键信息，基于时间间隔将单个IP的访问行为分给为多个访问段，使用机场信息文件分析航线热门信息；结合关键信息及航线热门信息计算访问段内十一个重要特征，组成特征向量作为访问段的行为特征；在样本选择中，选择已订票IP为正样本，而负样本采用自动方法选取。使用选取的训练样本训练CNN模型。最后基于概念漂移技术检测和更新爬虫检测模型。此方法方便分析爬虫检测的效果；同时通过协助用户选择和更新训练样本,交互地改进分类器性能,提高分类器对爬虫进化的适应能力。因而,本系统也是对深度学习模型分类器的一种可视分析改进方法。

Description

基于概念漂移的航空服务器访问爬虫的可视检测方法

技术领域

本发明涉及计算机数据可视化、网络数据安全和数据分析技术领域，具体涉及航空服务器访问爬虫的可视检测方法。

背景技术

随着大数据时代的到来，网络爬虫的现象日益增加。在航空公司的网站之中,往往包含了航线、机票价格等对于航空公司较为重要的信息，因此成为了爬虫青睐的场所。信息的泄露将会给航空公司造成了重大的损失。对于每次查询，航空公司都需要支付相应的流量费,因而如果将高效的反爬虫系统部署在航空订票系统的后台服务器上,阻止恶意的爬虫不断向服务器查询重要的数据,这样不仅可以减少航空公司的流量费用,同时，开发的反爬虫系统也可以作为一个通用的系统，满足每一个航空公司的爬虫检测的需求。

当前，大多数爬虫检测技术的重要步骤是发现爬虫与正常普通用户的相应信息或行为相关特征的不同点。深度学习方法由于结合了浏览行为中不易获得的特征以及它们之间的联系,因此深度学习方法相对于其他检测方法的效果更好，引起了更多关注。但仅仅只是将已存在的深度学习方法应用于相应订票系统的爬虫检测功能中，往往也会存在不足:(1)订票系统的日志信息缺少普通用户在其前台网站上的访问行为等其它信息,往往只包含了普通用户的查询信息,因此，相比较于常用的前台网站上的爬虫检测技术,后台服务端的爬虫检测技术仅仅可以使用较少的查询信息来建立神经网络的输入特征,分类的难度比较大。(2)为了躲过神经网络构建的分类器的检测,恶意的访问者会同时使用许多的爬虫。它们能够对进行任务划分，合作完成一些任务,甚至会模拟正常人类的访问行为及习惯,因此对这类爬虫进行逐个检测的难度比较大,需要寻找这类爬虫的相似之处同时构建整体浏览行为特征，用于爬虫分类任务。(3)恶意爬虫可以针对系统给出的反爬虫方法不断改进自己的爬虫策略,因而反爬虫系统必须不断进行更新分类器模型的操作,以适应不断更新的爬虫策略。

发明内容

为了解决上述已有技术存在的不足，本发明提出了航空服务器访问爬虫的可视检测方法。本发明的具体技术方案如下：

基于概念漂移的航空服务器访问爬虫的可视检测方法，是基于航空服务器日志数据对爬虫进行识别；包括以下步骤：

步骤一：当一个用户或者爬虫访问航空服务器时，系统将会自动保存一条日志；基于该日志信息，查看该日志所属IP地址一周内是否订过票，如订过票，则判定为正常用户，允许其继续访问；

步骤二：若此IP地址一周内未订过票，则进入下一个判定模块：判定其是否在黑名单中，若存在黑名单之中，则判定为爬虫，阻止其继续访问；

步骤三：若未在黑名单之中，同时，未在白名单之中，则需查看其查询次数；若此IP地址在当天的查询次数在200次以上，或者此IP地址一周的查询量在500次以上，系统将会将其判定为爬虫，进而阻止其继续访问；

步骤四：查看此IP地址是否频繁的访问多个城市。如果其访问的城市超过10个且每个城市的查询次数在50次以上，系统将会将其判定为爬虫，进而阻止其继续访问；

步骤五：若此IP用户上述步骤皆通过，则将其作为神经网络CNN的输入，由基于深度学习网络CNN的爬虫检测模型进行预测，若预测为爬虫，阻止其继续访问；否则，允许其继续访问；

步骤六：针对数据集中所以的航线以及所有的IP地址的查询机票和订购机票的比例情况以及反爬虫系统的检测效果执行可视化输出。

作为优选，使用基于概念漂移检测的爬虫检测模型可视构建和更新方法，构建基于深度学习网络的爬虫检测模型，包括以下步骤：

子步骤一：对数据集中的航空日志数据进行数据清洗：航空日志数据中会存在一些无用的日志数据，若不对其进行过滤，将会严重影响最终模型的精度。因此，将缺失任何字段的日志及其IP地址对应的所有访问日志全部删除。

子步骤二：解析服务器的访问日志数据，并基于时间间隔将访问日志数据分为多个访问段，作为后续的基本分析单元；同时根据数据集中提供的机场流量信息对各个航线进行流量分级。

子步骤三：计算各访问段内数据的特征，分别为该访问段内的总查询量、每个查询的持续时间、查询中涉及的达到城市的数量、出发城市的数量、返回的查询错误率、两次相邻查询时间间隔的平均值和方差、查询中大流量航线的比例、普通流量航线比例、查询时间白昼比例以及具有相同的前三个字段的IP组一周内的查询总量，将此十一个特征组成向量作为此访问段的查询行为特征。

子步骤四：构建CNN模型的训练样本集，将已订票的IP作为正样本，采用自动筛选的方法提取负样本；自动筛选的负样本包括:第一类为已知的标记为爬虫的样本,网络中能够查询到的爬虫IP；第二类为近期内总查询量大但未订票的访问段；第三类为从大量相似IP地址中查找爬虫IP：统计所有IP地址中前3个字段都是相同的子组的总体查询数量,选取总体查询数量最大的并且无订票记录的IP子组，从选取的IP子组中随机选取一些访问段作为负样本。

子步骤五：使用选取的训练样本训练CNN分类模型，模型的输入为同一个IP的多个连续访问字段的特征向量组成的二维数组，输出为二分类结果。

子步骤六：基于概念漂移技术检测和更新爬虫检测模型。

作为优选，子步骤六包括：

建立一个滑动时间窗口，窗口的起点为当前分类模型使用的起始时间，而窗口的终点随着新数据的获得而不断被扩展；

当新数据进来后，漂移检测程序将检测时间窗口内的整体查订比是否显著增加；

如果查订比的增加率达到设定的警告门限，则利用子步骤三的方法逐步筛选部分近期访问段数据作为新样本更新当前训练库中的早期样本，但仍使用旧的分类器进行爬虫检测；

如果查订比的增加率达到了设定的漂移门限，则以当前更新后的样本库重新训练爬虫检测模型，以代替旧的模型。

本发明的实质性特点在于：本发明以航空服务器日志为数据进行检测，能够保证航空信息的完整性，同时保证数据可以轻易获取。本发明结合概念漂移技术，可以使得爬虫检测模型在时序变化之中依旧保持较高的识别精度。本发明结合可视化技术，将繁杂的特征提取过程及信息筛选过程等转化为视觉表现形式，同时实现交互式爬虫检测。

附图说明

图1为本发明中爬虫检测流程图。

图2为本发明的CNN模型生成流程图。

图3为本发明的统计页面图。

图4为本发明的分析页面图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。

图1为基于概念漂移的航空服务器访问爬虫的可视检测方法的爬虫检测流程图。航空服务器访问爬虫的可视检测方法可以基于航空服务器日志数据对爬虫进行有效的识别。

具体地，航空服务器访问爬虫检测流程，包括以下步骤：

CNN模型预测作为该方法中至关重要的一步，必须保证其拥有高精度。图2为基于概念漂移的航空服务器访问爬虫的可视检测方法的CNN模型生成流程图。具体地，包括以下步骤：

步骤一：对数据集中的航空日志数据进行数据清洗：航空日志数据中会存在一些无用的日志数据，若不对其进行过滤，将会严重影响最终模型的精度。因此，将缺失任何字段的日志及其IP地址对应的所有访问日志全部删除。

步骤二：解析服务器的访问日志数据，并基于时间间隔将访问日志数据分为多个访问段，作为后续的基本分析单元；同时根据数据集中提供的机场流量信息对各个航线进行流量分级。

步骤三：基于爬虫的行为特征，选取十一个具有较大区分度的特征变量，分别为访问段内的总查询量、每个查询的持续时间、查询中涉及的达到城市的数量、出发城市的数量、返回的查询错误率、两次相邻查询时间间隔的平均值和方差、查询中大流量航线的比例、普通流量航线比例、查询时间白昼比例以及具有相同的前三个字段的IP组一周内的查询总量，将此十一个特征组成向量作为此访问段的查询行为特征。

步骤四：构建训练样本集，将已订票IP作为正样本，采用自动筛选的方式选取负样本。自动筛选的负样本包括3类:第一类为已知的标记为爬虫的样本(网络中能够查询到的爬虫IP)。第二类为近期内总查询量大但未订票的访问段。第三类为从大量相似IP地址中查找爬虫IP：统计所有IP地址中前3个字段都是相同的子组的总体查询数量,选取总体查询数量最大的并且无订票记录的IP子组，从选取的IP子组中随机选取一些访问段作为负样本。

步骤五：使用选取的训练样本训练CNN分类模型，模型的输入为同一个IP的多个连续访问字段的特征向量组成的二维数组，输出为二分类结果。具体做法为：首先，对网络权重进行初始化。接着，使用步骤四中选取的正负样本作为训练样本，同时根据步骤三中提取的十一个特征，将每一个样本转化为十一维的向量。将所有训练数据样本转化为二维数组，作为CNN分类模型的输入。输入到神经网络CNN的数据将会经过卷积层、下采样层、全连接层等进行模型的向前传播，获得输出值以后，网络将会求出神经网络的输出值与目标值之间的损失误差，当求得的误差大于设置的期待值时，把该损失传回反向传播回神经网络的各层中，同时，各层根据求得的损失对权值进行更新。循环迭代的更新权重，直至精度达到预期效果。

步骤六：基于概念漂移技术检测和更新爬虫检测模型。具体做法为：

建立一个滑动时间窗口，窗口的起点为当前分类模型使用的起始时间，而窗口的终点随着新数据的获得而不断被扩展。当新数据进来后，漂移检测程序将检测时间窗口内的整体查订比是否显著增加。如果查订比的增加率达到警告门限，则利用步骤三的方法逐步筛选部分近期访问段数据作为新样本更新当前训练库中的早期样本，基于旧的分类器继续对模型进行训练，直至精度重新达到预期效果。此阶段仍使用旧的分类器进行爬虫检测。如果查订比的增加率达到了漂移门限，则以当前更新后的样本库重新训练爬虫检测模型，以代替旧的模型。

针对数据集中所以的航线以及所有的IP地址的查询机票和订购机票的比例情况以及反爬虫系统的检测效果执行可视化输出。可视化交互模块分为统计视图和分析视图。统计视图用于展现数据集中的所有航线和IP地址的查询、订票的情况以及爬虫检测精度的展示,视图中包含三个子模块:航线信息图、查订量分时统计表和IP排序分布图，参考图3。分析视图将用于使用自动的方式筛选爬虫负样本以及进行CNN训练。分析视图包含以下5个子模块:CNN模型训练模块、负样本筛选模块、IP地址历史详情模块、日志访问段详情模块和输入特征分布图，参考图4。

以上所述仅为本发明的基础实施样例，以上样例只是为了帮助理解本发明的技术方案及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.基于概念漂移的航空服务器访问爬虫的可视检测方法，其特征在于，基于航空服务器日志数据对爬虫进行识别；包括以下步骤：

步骤四：查看此IP地址是否频繁的访问多个城市，如果其访问的城市超过10个且每个城市的查询次数在50次以上，系统将会将其判定为爬虫，进而阻止其继续访问；

步骤五：若此IP用户上述步骤皆通过，则将其作为神经网络CNN的输入，由基于深度学习网络CNN的爬虫检测模型进行预测，若预测为爬虫，阻止其继续访问；否则，允许其继续访问。

2.根据权利要求1所述的基于概念漂移的航空服务器访问爬虫的可视检测方法，其特征在于，使用基于概念漂移检测的爬虫检测模型可视构建和更新方法，构建基于深度学习网络的爬虫检测模型，包括以下步骤：

步骤一：对数据集中的航空日志数据进行数据清洗：航空日志数据中会存在一些无用的日志数据，若不对其进行过滤，将会严重影响最终模型的精度，因此，将缺失任何字段的日志及其IP地址对应的所有访问日志全部删除；

步骤二：解析服务器的访问日志数据，并基于时间间隔将访问日志数据分为多个访问段，作为后续的基本分析单元；同时根据数据集中提供的机场流量信息对各个航线进行流量分级；

步骤三：基于爬虫的行为特征，选取十一个具有较大区分度的特征变量，分别为访问段内的总查询量、每个查询的持续时间、查询中涉及的达到城市的数量、出发城市的数量、返回的查询错误率、两次相邻查询时间间隔的平均值和方差、查询中大流量航线的比例、普通流量航线比例、查询时间白昼比例以及具有相同的前三个字段的IP组一周内的查询总量，将此十一个特征组成向量作为此访问段的查询行为特征；

步骤四：构建训练样本集，将已订票IP作为正样本，采用自动筛选的方式选取负样本，自动筛选的负样本包括3类:第一类为已知的标记为爬虫的样本；第二类为近期内总查询量大但未订票的访问段；第三类为从大量相似IP地址中查找爬虫IP：统计所有IP地址中前3个字段都是相同的子组的总体查询数量,选取总体查询数量最大的并且无订票记录的IP子组，从选取的IP子组中随机选取一些访问段作为负样本；

步骤五：使用选取的训练样本训练CNN分类模型，模型的输入为同一个IP的多个连续访问字段的特征向量组成的二维数组，输出为二分类结果：首先，对网络权重进行初始化，接着，使用步骤一四中选取的正负样本作为训练样本，同时根据步骤一三中提取的十一个特征，将每一个样本转化为十一维的向量，将所有训练数据样本转化为二维数组，作为CNN分类模型的输入；输入到神经网络CNN的数据将会经过卷积层、下采样层、全连接层等进行模型的向前传播，获得输出值以后，网络将会求出神经网络的输出值与目标值之间的损失误差，当求得的误差大于设置的期待值时，把该损失传回反向传播回神经网络的各层中，同时，各层根据求得的损失对权值进行更新，循环迭代的更新权重，直至精度达到预期效果；

步骤六：基于概念漂移技术检测和更新爬虫检测模型：

建立一个滑动时间窗口，窗口的起点为当前分类模型使用的起始时间，而窗口的终点随着新数据的获得而不断被扩展，当新数据进来后，漂移检测程序将检测时间窗口内的整体查订比是否显著增加，如果查订比的增加率达到警告门限，则利用步骤一三的方法逐步筛选部分近期访问段数据作为新样本更新当前训练库中的早期样本，基于旧的分类器继续对模型进行训练，直至精度重新达到预期效果，此阶段仍使用旧的分类器进行爬虫检测，如果查订比的增加率达到了漂移门限，则以当前更新后的样本库重新训练爬虫检测模型，以代替旧的模型。

3.根据权利要求1所述的基于概念漂移的航空服务器访问爬虫的可视检测方法，其特征在于，针对数据集中所以的航线以及所有的IP地址的查询机票和订购机票的比例情况以及反爬虫系统的检测效果执行可视化输出。