CN115878877A - 基于概念漂移的航空服务器访问爬虫的可视检测方法 - Google Patents

基于概念漂移的航空服务器访问爬虫的可视检测方法 Download PDF

Info

Publication number
CN115878877A
CN115878877A CN202211239551.4A CN202211239551A CN115878877A CN 115878877 A CN115878877 A CN 115878877A CN 202211239551 A CN202211239551 A CN 202211239551A CN 115878877 A CN115878877 A CN 115878877A
Authority
CN
China
Prior art keywords
crawler
access
query
sample
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211239551.4A
Other languages
English (en)
Inventor
吴向阳
胡金明
金征雷
赵帅杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Ruicheng Information Technology Co ltd
Hangzhou Dianzi University
Original Assignee
Hangzhou Ruicheng Information Technology Co ltd
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Ruicheng Information Technology Co ltd, Hangzhou Dianzi University filed Critical Hangzhou Ruicheng Information Technology Co ltd
Priority to CN202211239551.4A priority Critical patent/CN115878877A/zh
Publication of CN115878877A publication Critical patent/CN115878877A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于概念漂移的航空服务器访问爬虫的可视检测方法,后端解释航空服务器的访问日志数据,抽取关键信息,基于时间间隔将单个IP的访问行为分给为多个访问段,使用机场信息文件分析航线热门信息;结合关键信息及航线热门信息计算访问段内十一个重要特征,组成特征向量作为访问段的行为特征;在样本选择中,选择已订票IP为正样本,而负样本采用自动方法选取。使用选取的训练样本训练CNN模型。最后基于概念漂移技术检测和更新爬虫检测模型。此方法方便分析爬虫检测的效果;同时通过协助用户选择和更新训练样本,交互地改进分类器性能,提高分类器对爬虫进化的适应能力。因而,本系统也是对深度学习模型分类器的一种可视分析改进方法。

Description

基于概念漂移的航空服务器访问爬虫的可视检测方法
技术领域
本发明涉及计算机数据可视化、网络数据安全和数据分析技术领域,具体涉及航空服务器访问爬虫的可视检测方法。
背景技术
随着大数据时代的到来,网络爬虫的现象日益增加。在航空公司的网站之中,往往包含了航线、机票价格等对于航空公司较为重要的信息,因此成为了爬虫青睐的场所。信息的泄露将会给航空公司造成了重大的损失。对于每次查询,航空公司都需要支付相应的流量费,因而如果将高效的反爬虫系统部署在航空订票系统的后台服务器上,阻止恶意的爬虫不断向服务器查询重要的数据,这样不仅可以减少航空公司的流量费用,同时,开发的反爬虫系统也可以作为一个通用的系统,满足每一个航空公司的爬虫检测的需求。
当前,大多数爬虫检测技术的重要步骤是发现爬虫与正常普通用户的相应信息或行为相关特征的不同点。深度学习方法由于结合了浏览行为中不易获得的特征以及它们之间的联系,因此深度学习方法相对于其他检测方法的效果更好,引起了更多关注。但仅仅只是将已存在的深度学习方法应用于相应订票系统的爬虫检测功能中,往往也会存在不足:(1)订票系统的日志信息缺少普通用户在其前台网站上的访问行为等其它信息,往往只包含了普通用户的查询信息,因此,相比较于常用的前台网站上的爬虫检测技术,后台服务端的爬虫检测技术仅仅可以使用较少的查询信息来建立神经网络的输入特征,分类的难度比较大。(2)为了躲过神经网络构建的分类器的检测,恶意的访问者会同时使用许多的爬虫。它们能够对进行任务划分,合作完成一些任务,甚至会模拟正常人类的访问行为及习惯,因此对这类爬虫进行逐个检测的难度比较大,需要寻找这类爬虫的相似之处同时构建整体浏览行为特征,用于爬虫分类任务。(3)恶意爬虫可以针对系统给出的反爬虫方法不断改进自己的爬虫策略,因而反爬虫系统必须不断进行更新分类器模型的操作,以适应不断更新的爬虫策略。
发明内容
为了解决上述已有技术存在的不足,本发明提出了航空服务器访问爬虫的可视检测方法。本发明的具体技术方案如下:
基于概念漂移的航空服务器访问爬虫的可视检测方法,是基于航空服务器日志数据对爬虫进行识别;包括以下步骤:
步骤一:当一个用户或者爬虫访问航空服务器时,系统将会自动保存一条日志;基于该日志信息,查看该日志所属IP地址一周内是否订过票,如订过票,则判定为正常用户,允许其继续访问;
步骤二:若此IP地址一周内未订过票,则进入下一个判定模块:判定其是否在黑名单中,若存在黑名单之中,则判定为爬虫,阻止其继续访问;
步骤三:若未在黑名单之中,同时,未在白名单之中,则需查看其查询次数;若此IP地址在当天的查询次数在200次以上,或者此IP地址一周的查询量在500次以上,系统将会将其判定为爬虫,进而阻止其继续访问;
步骤四:查看此IP地址是否频繁的访问多个城市。如果其访问的城市超过10个且每个城市的查询次数在50次以上,系统将会将其判定为爬虫,进而阻止其继续访问;
步骤五:若此IP用户上述步骤皆通过,则将其作为神经网络CNN的输入,由基于深度学习网络CNN的爬虫检测模型进行预测,若预测为爬虫,阻止其继续访问;否则,允许其继续访问;
步骤六:针对数据集中所以的航线以及所有的IP地址的查询机票和订购机票的比例情况以及反爬虫系统的检测效果执行可视化输出。
作为优选,使用基于概念漂移检测的爬虫检测模型可视构建和更新方法,构建基于深度学习网络的爬虫检测模型,包括以下步骤:
子步骤一:对数据集中的航空日志数据进行数据清洗:航空日志数据中会存在一些无用的日志数据,若不对其进行过滤,将会严重影响最终模型的精度。因此,将缺失任何字段的日志及其IP地址对应的所有访问日志全部删除。
子步骤二:解析服务器的访问日志数据,并基于时间间隔将访问日志数据分为多个访问段,作为后续的基本分析单元;同时根据数据集中提供的机场流量信息对各个航线进行流量分级。
子步骤三:计算各访问段内数据的特征,分别为该访问段内的总查询量、每个查询的持续时间、查询中涉及的达到城市的数量、出发城市的数量、返回的查询错误率、两次相邻查询时间间隔的平均值和方差、查询中大流量航线的比例、普通流量航线比例、查询时间白昼比例以及具有相同的前三个字段的IP组一周内的查询总量,将此十一个特征组成向量作为此访问段的查询行为特征。
子步骤四:构建CNN模型的训练样本集,将已订票的IP作为正样本,采用自动筛选的方法提取负样本;自动筛选的负样本包括:第一类为已知的标记为爬虫的样本,网络中能够查询到的爬虫IP;第二类为近期内总查询量大但未订票的访问段;第三类为从大量相似IP地址中查找爬虫IP:统计所有IP地址中前3个字段都是相同的子组的总体查询数量,选取总体查询数量最大的并且无订票记录的IP子组,从选取的IP子组中随机选取一些访问段作为负样本。
子步骤五:使用选取的训练样本训练CNN分类模型,模型的输入为同一个IP的多个连续访问字段的特征向量组成的二维数组,输出为二分类结果。
子步骤六:基于概念漂移技术检测和更新爬虫检测模型。
作为优选,子步骤六包括:
建立一个滑动时间窗口,窗口的起点为当前分类模型使用的起始时间,而窗口的终点随着新数据的获得而不断被扩展;
当新数据进来后,漂移检测程序将检测时间窗口内的整体查订比是否显著增加;
如果查订比的增加率达到设定的警告门限,则利用子步骤三的方法逐步筛选部分近期访问段数据作为新样本更新当前训练库中的早期样本,但仍使用旧的分类器进行爬虫检测;
如果查订比的增加率达到了设定的漂移门限,则以当前更新后的样本库重新训练爬虫检测模型,以代替旧的模型。
本发明的实质性特点在于:本发明以航空服务器日志为数据进行检测,能够保证航空信息的完整性,同时保证数据可以轻易获取。本发明结合概念漂移技术,可以使得爬虫检测模型在时序变化之中依旧保持较高的识别精度。本发明结合可视化技术,将繁杂的特征提取过程及信息筛选过程等转化为视觉表现形式,同时实现交互式爬虫检测。
附图说明
图1为本发明中爬虫检测流程图。
图2为本发明的CNN模型生成流程图。
图3为本发明的统计页面图。
图4为本发明的分析页面图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。
图1为基于概念漂移的航空服务器访问爬虫的可视检测方法的爬虫检测流程图。航空服务器访问爬虫的可视检测方法可以基于航空服务器日志数据对爬虫进行有效的识别。
具体地,航空服务器访问爬虫检测流程,包括以下步骤:
步骤一:当一个用户或者爬虫访问航空服务器时,系统将会自动保存一条日志;基于该日志信息,查看该日志所属IP地址一周内是否订过票,如订过票,则判定为正常用户,允许其继续访问;
步骤二:若此IP地址一周内未订过票,则进入下一个判定模块:判定其是否在黑名单中,若存在黑名单之中,则判定为爬虫,阻止其继续访问;
步骤三:若未在黑名单之中,同时,未在白名单之中,则需查看其查询次数;若此IP地址在当天的查询次数在200次以上,或者此IP地址一周的查询量在500次以上,系统将会将其判定为爬虫,进而阻止其继续访问;
步骤四:查看此IP地址是否频繁的访问多个城市。如果其访问的城市超过10个且每个城市的查询次数在50次以上,系统将会将其判定为爬虫,进而阻止其继续访问;
步骤五:若此IP用户上述步骤皆通过,则将其作为神经网络CNN的输入,由基于深度学习网络CNN的爬虫检测模型进行预测,若预测为爬虫,阻止其继续访问;否则,允许其继续访问;
CNN模型预测作为该方法中至关重要的一步,必须保证其拥有高精度。图2为基于概念漂移的航空服务器访问爬虫的可视检测方法的CNN模型生成流程图。具体地,包括以下步骤:
步骤一:对数据集中的航空日志数据进行数据清洗:航空日志数据中会存在一些无用的日志数据,若不对其进行过滤,将会严重影响最终模型的精度。因此,将缺失任何字段的日志及其IP地址对应的所有访问日志全部删除。
步骤二:解析服务器的访问日志数据,并基于时间间隔将访问日志数据分为多个访问段,作为后续的基本分析单元;同时根据数据集中提供的机场流量信息对各个航线进行流量分级。
步骤三:基于爬虫的行为特征,选取十一个具有较大区分度的特征变量,分别为访问段内的总查询量、每个查询的持续时间、查询中涉及的达到城市的数量、出发城市的数量、返回的查询错误率、两次相邻查询时间间隔的平均值和方差、查询中大流量航线的比例、普通流量航线比例、查询时间白昼比例以及具有相同的前三个字段的IP组一周内的查询总量,将此十一个特征组成向量作为此访问段的查询行为特征。
步骤四:构建训练样本集,将已订票IP作为正样本,采用自动筛选的方式选取负样本。自动筛选的负样本包括3类:第一类为已知的标记为爬虫的样本(网络中能够查询到的爬虫IP)。第二类为近期内总查询量大但未订票的访问段。第三类为从大量相似IP地址中查找爬虫IP:统计所有IP地址中前3个字段都是相同的子组的总体查询数量,选取总体查询数量最大的并且无订票记录的IP子组,从选取的IP子组中随机选取一些访问段作为负样本。
步骤五:使用选取的训练样本训练CNN分类模型,模型的输入为同一个IP的多个连续访问字段的特征向量组成的二维数组,输出为二分类结果。具体做法为:首先,对网络权重进行初始化。接着,使用步骤四中选取的正负样本作为训练样本,同时根据步骤三中提取的十一个特征,将每一个样本转化为十一维的向量。将所有训练数据样本转化为二维数组,作为CNN分类模型的输入。输入到神经网络CNN的数据将会经过卷积层、下采样层、全连接层等进行模型的向前传播,获得输出值以后,网络将会求出神经网络的输出值与目标值之间的损失误差,当求得的误差大于设置的期待值时,把该损失传回反向传播回神经网络的各层中,同时,各层根据求得的损失对权值进行更新。循环迭代的更新权重,直至精度达到预期效果。
步骤六:基于概念漂移技术检测和更新爬虫检测模型。具体做法为:
建立一个滑动时间窗口,窗口的起点为当前分类模型使用的起始时间,而窗口的终点随着新数据的获得而不断被扩展。当新数据进来后,漂移检测程序将检测时间窗口内的整体查订比是否显著增加。如果查订比的增加率达到警告门限,则利用步骤三的方法逐步筛选部分近期访问段数据作为新样本更新当前训练库中的早期样本,基于旧的分类器继续对模型进行训练,直至精度重新达到预期效果。此阶段仍使用旧的分类器进行爬虫检测。如果查订比的增加率达到了漂移门限,则以当前更新后的样本库重新训练爬虫检测模型,以代替旧的模型。
针对数据集中所以的航线以及所有的IP地址的查询机票和订购机票的比例情况以及反爬虫系统的检测效果执行可视化输出。可视化交互模块分为统计视图和分析视图。统计视图用于展现数据集中的所有航线和IP地址的查询、订票的情况以及爬虫检测精度的展示,视图中包含三个子模块:航线信息图、查订量分时统计表和IP排序分布图,参考图3。分析视图将用于使用自动的方式筛选爬虫负样本以及进行CNN训练。分析视图包含以下5个子模块:CNN模型训练模块、负样本筛选模块、IP地址历史详情模块、日志访问段详情模块和输入特征分布图,参考图4。
以上所述仅为本发明的基础实施样例,以上样例只是为了帮助理解本发明的技术方案及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (3)

1.基于概念漂移的航空服务器访问爬虫的可视检测方法,其特征在于,基于航空服务器日志数据对爬虫进行识别;包括以下步骤:
步骤一:当一个用户或者爬虫访问航空服务器时,系统将会自动保存一条日志;基于该日志信息,查看该日志所属IP地址一周内是否订过票,如订过票,则判定为正常用户,允许其继续访问;
步骤二:若此IP地址一周内未订过票,则进入下一个判定模块:判定其是否在黑名单中,若存在黑名单之中,则判定为爬虫,阻止其继续访问;
步骤三:若未在黑名单之中,同时,未在白名单之中,则需查看其查询次数;若此IP地址在当天的查询次数在200次以上,或者此IP地址一周的查询量在500次以上,系统将会将其判定为爬虫,进而阻止其继续访问;
步骤四:查看此IP地址是否频繁的访问多个城市,如果其访问的城市超过10个且每个城市的查询次数在50次以上,系统将会将其判定为爬虫,进而阻止其继续访问;
步骤五:若此IP用户上述步骤皆通过,则将其作为神经网络CNN的输入,由基于深度学习网络CNN的爬虫检测模型进行预测,若预测为爬虫,阻止其继续访问;否则,允许其继续访问。
2.根据权利要求1所述的基于概念漂移的航空服务器访问爬虫的可视检测方法,其特征在于,使用基于概念漂移检测的爬虫检测模型可视构建和更新方法,构建基于深度学习网络的爬虫检测模型,包括以下步骤:
步骤一:对数据集中的航空日志数据进行数据清洗:航空日志数据中会存在一些无用的日志数据,若不对其进行过滤,将会严重影响最终模型的精度,因此,将缺失任何字段的日志及其IP地址对应的所有访问日志全部删除;
步骤二:解析服务器的访问日志数据,并基于时间间隔将访问日志数据分为多个访问段,作为后续的基本分析单元;同时根据数据集中提供的机场流量信息对各个航线进行流量分级;
步骤三:基于爬虫的行为特征,选取十一个具有较大区分度的特征变量,分别为访问段内的总查询量、每个查询的持续时间、查询中涉及的达到城市的数量、出发城市的数量、返回的查询错误率、两次相邻查询时间间隔的平均值和方差、查询中大流量航线的比例、普通流量航线比例、查询时间白昼比例以及具有相同的前三个字段的IP组一周内的查询总量,将此十一个特征组成向量作为此访问段的查询行为特征;
步骤四:构建训练样本集,将已订票IP作为正样本,采用自动筛选的方式选取负样本,自动筛选的负样本包括3类:第一类为已知的标记为爬虫的样本;第二类为近期内总查询量大但未订票的访问段;第三类为从大量相似IP地址中查找爬虫IP:统计所有IP地址中前3个字段都是相同的子组的总体查询数量,选取总体查询数量最大的并且无订票记录的IP子组,从选取的IP子组中随机选取一些访问段作为负样本;
步骤五:使用选取的训练样本训练CNN分类模型,模型的输入为同一个IP的多个连续访问字段的特征向量组成的二维数组,输出为二分类结果:首先,对网络权重进行初始化,接着,使用步骤一四中选取的正负样本作为训练样本,同时根据步骤一三中提取的十一个特征,将每一个样本转化为十一维的向量,将所有训练数据样本转化为二维数组,作为CNN分类模型的输入;输入到神经网络CNN的数据将会经过卷积层、下采样层、全连接层等进行模型的向前传播,获得输出值以后,网络将会求出神经网络的输出值与目标值之间的损失误差,当求得的误差大于设置的期待值时,把该损失传回反向传播回神经网络的各层中,同时,各层根据求得的损失对权值进行更新,循环迭代的更新权重,直至精度达到预期效果;
步骤六:基于概念漂移技术检测和更新爬虫检测模型:
建立一个滑动时间窗口,窗口的起点为当前分类模型使用的起始时间,而窗口的终点随着新数据的获得而不断被扩展,当新数据进来后,漂移检测程序将检测时间窗口内的整体查订比是否显著增加,如果查订比的增加率达到警告门限,则利用步骤一三的方法逐步筛选部分近期访问段数据作为新样本更新当前训练库中的早期样本,基于旧的分类器继续对模型进行训练,直至精度重新达到预期效果,此阶段仍使用旧的分类器进行爬虫检测,如果查订比的增加率达到了漂移门限,则以当前更新后的样本库重新训练爬虫检测模型,以代替旧的模型。
3.根据权利要求1所述的基于概念漂移的航空服务器访问爬虫的可视检测方法,其特征在于,针对数据集中所以的航线以及所有的IP地址的查询机票和订购机票的比例情况以及反爬虫系统的检测效果执行可视化输出。
CN202211239551.4A 2022-10-11 2022-10-11 基于概念漂移的航空服务器访问爬虫的可视检测方法 Pending CN115878877A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211239551.4A CN115878877A (zh) 2022-10-11 2022-10-11 基于概念漂移的航空服务器访问爬虫的可视检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211239551.4A CN115878877A (zh) 2022-10-11 2022-10-11 基于概念漂移的航空服务器访问爬虫的可视检测方法

Publications (1)

Publication Number Publication Date
CN115878877A true CN115878877A (zh) 2023-03-31

Family

ID=85770341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211239551.4A Pending CN115878877A (zh) 2022-10-11 2022-10-11 基于概念漂移的航空服务器访问爬虫的可视检测方法

Country Status (1)

Country Link
CN (1) CN115878877A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117556365A (zh) * 2024-01-12 2024-02-13 山东建筑大学 一种流程数据漂移检测模型训练、漂移检测方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117556365A (zh) * 2024-01-12 2024-02-13 山东建筑大学 一种流程数据漂移检测模型训练、漂移检测方法及装置
CN117556365B (zh) * 2024-01-12 2024-04-09 山东建筑大学 一种流程数据漂移检测模型训练、漂移检测方法及装置

Similar Documents

Publication Publication Date Title
CN113302634B (zh) 学习和预测关键短语以及生成预测的系统、介质和方法
CN110222267B (zh) 一种游戏平台信息推送方法、系统、存储介质及设备
CN110245981B (zh) 一种基于手机信令数据的人群类型识别方法
CN109299271B (zh) 训练样本生成、文本数据、舆情事件分类方法及相关设备
CN104809108B (zh) 信息监测分析系统
Çavdar et al. Airline customer lifetime value estimation using data analytics supported by social network information
CN109493119B (zh) 一种基于poi数据的城市商业中心识别方法及系统
CN105760439B (zh) 一种基于特定行为共现网络的人物共现关系图谱构建方法
CN110263235A (zh) 信息推送对象更新方法、装置和计算机设备
CN104573130A (zh) 基于群体计算的实体解析方法及装置
Palla et al. Hierarchical networks of scientific journals
CN108062366B (zh) 公共文化信息推荐系统
Xing et al. A dynamic human activity‐driven model for mixed land use evaluation using social media data
CN108898244B (zh) 一种耦合多源要素的数字标牌位置推荐方法
CN112100372A (zh) 头版新闻预测分类方法
Rabbi et al. An Approximation For Monitoring The Efficiency Of Cooperative Across Diverse Network Aspects
CN115878877A (zh) 基于概念漂移的航空服务器访问爬虫的可视检测方法
Zhang et al. Automatic latent street type discovery from web open data
CN103324641A (zh) 信息记录推荐方法和装置
Wei et al. Delle: Detecting latest local events from geotagged tweets
CN117455237A (zh) 一种基于多源数据的道路交通事故风险预测方法
CN112052990A (zh) 一种基于CNN-BiLSTM混合模型的多角度业务流程下一活动预测方法
CN114398462B (zh) 一种基于多源异构信息网络的目的地推荐方法及系统
CN110633890A (zh) 一种土地利用效率判断方法和系统
CN104809253A (zh) 互联网数据分析系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 310018 no.1158, 2 Baiyang street, Qiantang New District, Hangzhou City, Zhejiang Province

Applicant after: HANGZHOU DIANZI University

Applicant after: Hangzhou Ruicheng Information Technology Co.,Ltd.

Address before: 310018 no.1158, 2 Baiyang street, Qiantang New District, Hangzhou City, Zhejiang Province

Applicant before: HANGZHOU DIANZI University

Applicant before: Hangzhou Ruicheng Information Technology Co.,Ltd.

CB02 Change of applicant information