CN112765437B - 一种动态检测失效流量的网络爬虫方法 - Google Patents

一种动态检测失效流量的网络爬虫方法 Download PDF

Info

Publication number
CN112765437B
CN112765437B CN202110086472.3A CN202110086472A CN112765437B CN 112765437 B CN112765437 B CN 112765437B CN 202110086472 A CN202110086472 A CN 202110086472A CN 112765437 B CN112765437 B CN 112765437B
Authority
CN
China
Prior art keywords
request
cookie
information
url
failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110086472.3A
Other languages
English (en)
Other versions
CN112765437A (zh
Inventor
秦康
赵小敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110086472.3A priority Critical patent/CN112765437B/zh
Publication of CN112765437A publication Critical patent/CN112765437A/zh
Application granted granted Critical
Publication of CN112765437B publication Critical patent/CN112765437B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2255Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Abstract

本发明涉及一种动态检测失效流量的网络爬虫方法,包括以下步骤,首先通过分析网络请求信息构建动态检测失效流量模型的数据集,然后设计出动态检测失效流量的方法,接着对URL队列中的信息进行读取并且对Cookie等信息进行封装后发送请求,提取返回数据信息,并对返回数据信息进行失效流量检测,最后对重复返回数据信息进行处理,如是有效数据则持久化存储。本发明弥补了现有聚焦爬虫和增量爬虫在Cookie失效问题的处理上和数据重复处理上的不足之处,降低了爬取数据的失效和重复概率,对爬虫系统的设计提供了可借鉴的方案,提高了爬虫系统的整体性能。

Description

一种动态检测失效流量的网络爬虫方法
技术领域
本发明涉及网络爬虫技术领域,尤其涉及一种动态检测失效流量的网络爬虫方法。
背景技术
互联网中的数据是海量的,如何自动高效地获取互联网中感兴趣的信息并为我们所用是一个重要的问题,而网络爬虫技术就是为了解决这些问题而生的。网络爬虫具体可分为通用爬虫、增量爬虫和聚焦爬虫三大类。通用爬虫在搜索引擎上应用十分广泛,技术也相对比较成熟;增量爬虫的核心思想是去除重复的URL,但由于相同的URL爬取内容经常变化,其通用性较差,难以得到广泛应用;在大数据迅速发展的今天,聚焦爬虫因其具有一定的目的性,能够更好地满足爬取需求,为大数据分析提供可靠的数据支撑,已经得到了广泛的应用,爬取的数据在数据分析和深度学习等领域具有广泛的应用价值。
随着网络技术的不断发展,网络上产生的数据量爆炸式地增长,而各种组织和个人也越来越注重对数据的保护,网络爬虫的难度也逐渐增加。这往往体现在进行聚焦爬虫和增量爬虫时,同一客户端对同一服务器访问过高,造成服务器负担过重,服务器采用技术手段限制爬虫,导致爬虫系统的稳定性和爬取的数据量均受到影响。传统的爬虫方法无法动态检测失效流量并替换新的请求头,容易造成重复爬取和资源浪费等现象。
发明内容
本发明为克服上述的不足之处,目的在于提供一种动态检测失效流量的网络爬虫方法,本发明结合用户的基本信息,使用Python的Requests模块,采用BP神经网络方法对失效流量进行动态检测,通过哈希算法对返回内容进行摘要,用来判断是否为重复爬取,对于请求头中失效的Cookie,对其及时替换并重新访问,从而达到降低服务器负担和确保爬虫数据完整性的目的。
本发明是通过以下技术方案达到上述目的:一种动态检测失效流量的网络爬虫方法,包括如下步骤:
(1)获取目标应用的网络请求信息,通过代理的方式提取网络请求特征,构建动态检测失效流量模型的数据集;
(2)构建机器学习BP神经网络的分类模型,将步骤(1)中的部分数据集作为训练集,剩余部分作为测试集,得到动态检测失效流量的BP神经网络模型;
(3)分析网络请求,将请求相关的URL和Cookie数据持久化存储;
(4)对数据库中的请求URL和Cookie读取并加入各自的队列中,分别从队列中取出请求的相关URL和Cookie进行封装,发送请求;
(5)利用步骤(2)得到的动态检测失效流量模型,识别判断步骤(4)中请求的返回信息,对失效的流量信息则返回步骤(4),将其URL重新加入步骤(4)的队列中等待重新封装;
(6)计算返回数据包中内容信息的哈希值并判断是否重复;
(7)对返回不重复的内容信息进行持久化存储。
作为优选,所述步骤(1)具体如下:
(1.1)选取聚焦爬虫的目标应用,通过分析软件设置代理软件的证书,配置代理接口,在目标应用的系统中安装证书;
(1.2)对网络爬虫的目标系统进行模拟点击事件,对获取的数据包分析并提取,构建一个可被BP神经网络接收的输入向量:
Figure GDA0003544572630000031
其中,X1、X2、X3、X4、X5、X6分别代表提取请求的类型、返回数据量大小、请求次数、请求协议类型、请求响应时间、Cookie被使用次数,通过标注的方式标记该数据包的预测结果,构建出动态检测失效流量模型的数据集。
作为优选,所述步骤(2)得到动态检测失效流量的BP神经网络模型的实现方法如下:
BP神经网络包括输入层、隐藏层和输出层;
1)输入层和输出层设计,模型将请求类型X1,返回数据量大小X2,请求次数X3,请求协议类型X4,请求响应时间X5,Cookie被使用次数X6作为模型的输入,采用3层BP神经网络结构,输出层单个神经元是流量状态的判定结果;
2)输入层6个神经元是流量的对应信息,输出层单个神经元代表流量状态的判定结果,隐含层神经元个数为:
Figure GDA0003544572630000041
其中,n和m分别代表输入神经元和输出神经元的个数,a为常数;
3)流量的对应信息输入为xj,各层之间的权值为wij,隐含层的阈值为aj,则隐含层的输出为:
Figure GDA0003544572630000042
其中,l为隐含层神经元个数;
4)模型中采用的激活函数表达式为:
Figure GDA0003544572630000043
5)根据隐含层输出的Hj,输出层和隐含层之间连接的权值和阈值分别为w和b,得到输出结果T,其表达式为:
Figure GDA0003544572630000044
使用梯度下降算法不断调整模型中各层的输入权重和偏置,获得最佳的预测结果,动态检测失效流量模型建立完成。
作为优选,所述步骤(3)具体包括:
(3.1)将请求相关的URL和Cookie数据持久化存储,通过抓包分析软件分析URL及其各参数的含义,提取其请求URL和请求参数信息si,相关账户的Cookie信息Ci
(3.2)通过局部洗牌法将si进行重新排序并保存至Redis缓存数据库的队列中,如下式所示:
Vi=i+r mod(n-i),i=1,2,3,...,n
其中,Vi是URL索引洗牌之后的索引位置,i是URL索引,n是索引的个数;
(3.3)将请求URL和请求参数信息Vi,Cookie信息Ci分别持久化至Redis缓存数据库。
作为优选,所述步骤(4)对数据库中的请求URL和Cookie读取并加入各自的队列中,分别从队列中取出请求的相关URL和Cookie进行封装并发送请求,具体包括以下步骤:
(4.1)从Redis队列中分别取出请求URL和请求参数信息Vi和Cookie信息Ci,将Vi作为请求的URL,Ci作为请求的Cookie字段封装进请求头中,同时将请求的User-Agent、Connection和Accept基本请求头信息封装,组成完整的HTTP请求Ki,并将Ki加入请求队列中;
(4.2)从请求队列中取出封装完成的请求信息Ki,通过Python的Requests模块发送请求,得到请求的返回结果Ri
作为优选,所述步骤(5)具体包括如下步骤:
(5.1)将步骤(4)中请求的返回信息Ri中的请求的类型X1、返回数据量大小X2、请求次数X3、请求协议类型X4、请求响应时间X5和Cookie被使用次数X6作为模型的输入,并输出判定结果;
(5.2)若流量信息被判别为失效流量,将Cookie的失效字段置为1,1表示失效;Cookie的使用次数t的值增加1,丢弃该请求信息,将其URL重新加入步骤(4)所述的URL的队列中等待重新封装;
(5.3)若流量信息未被判别为失效流量,将Cookie的失效字段置为0,0表示有效,Cookie的使用次数t的值增加1;
(5.4)对于失效字段为1且使用次数t达到阈值v1的Cookie,判定为失效Cookie,将其移出队列;并检查Cookie队列中元素的个数,若元素个数小于v2,则从库文件中重新提取新的Cookie并加入Cookie队列中。
作为优选,所述步骤(6)具体为:将请求返回的信息通过MD5消息摘要算法进行计算,将计算得到的值与已入库的值进行对比,判断是否有重复的值;若重复,则丢弃请求所返回的数据,若不重复则将该摘要值入库并将数据进行持久化。
作为优选,所述步骤(7)包括:在步骤(6)判断数据没有重复的前提下,将数据进行清洗,并以txt文件的形式输出
本发明的有益效果在于:本发明弥补了现有聚焦爬虫和增量爬虫在Cookie失效问题的处理上和数据重复处理上的不足之处,降低了爬取数据的失效和重复概率,对爬虫系统的设计提供了可借鉴的方案,提高了爬虫系统的整体性能。
附图说明
图1是本发明的方法流程示意图;
图2是本发明实施例的BP神经网络示意图;
图3是本发明实施例的系统结构示意图。
具体实施方式
下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不仅限于此:
实施例:如图1所示,一种动态检测失效流量的网络爬虫方法具体如下:
步骤1:获取目标应用的网络请求信息,通过代理的方式提取网络请求特征,构建动态检测失效流量模型的数据集;
针对所需爬取的目标应用,首先需要对应用的网络进行分析,通过诸如Fiddler软件设置代理并在目标系统上安装授权证书的方式获取请求的网络信息,在目标系统上模拟点击事件,通过观察数据包分析软件(如Fiddler)上接收到的请求数据包来分析请求的结构和方式,获取请求的类型X1、返回数据量大小X2、请求次数X3、请求协议类型X4、请求响应时间X5和Cookie被使用次数X6,构建一个可以被BP神经网络接收的输入向量:
Figure GDA0003544572630000081
通过标注的方式标记该数据包的预测结果,构建出动态检测失效流量模型的数据集。
步骤2:动态检测失效流量方法设计;
本发明所设计的失效流量检测方法是基于BP神经网络的,如图2所示,BP神经网络包括输入层、隐藏层和输出层;
①输入层和输出层设计,模型将请求的请求类型X1,返回数据量大小X2,请求次数X3,请求协议类型X4,请求响应时间X5,Cookie被使用次数X6作为模型的输入,采用3层BP神经网络结构,输出层单个神经元是流量状态的判定结果;
②输入层6个神经元是流量的对应信息,输出层单个神经元代表流量状态的判定结果,隐含层神经元个数为:
Figure GDA0003544572630000082
其中,n和m分别代表输入神经元和输出神经元的个数,a为常数;通过公式计算,得到隐含层神经元的个数为4。
③流量的对应信息输入为xj,各层之间的权值为wij,隐含层的阈值为aj,则隐含层的输出为:
Figure GDA0003544572630000091
其中,l为隐含层神经元个数
④模型中采用的激活函数表达式为:
Figure GDA0003544572630000092
⑤根据隐含层输出的Hj,输出层和隐含层之间连接的权值和阈值分别为w和b,得到输出结果T,其表达式为:
Figure GDA0003544572630000093
将上述数据集中请求类型X1,返回数据量大小X2,请求次数X3,请求协议类型X4,请求响应时间X5,Cookie被使用次数X6作为输入,输入到上述设计好的模型中进行训练,使用梯度下降算法不断调整模型中各层的输入权重和偏置,获得最佳的预测结果,从而得到训练好的模型。
步骤3:流量失效检测;
步骤3.1:URL和Cookie初始化,如图3所示,本发明通过诸如Fiddler的数据包分析软件分析请求报文,提取其中的URL和请求参数信息si,相关账户的Cookie信息Ci,为防止同一类型的URL访问次数过多,使用局部洗牌法将si进行重新排序并保存至Redis缓存数据库的队列中,如下式所示:
Vi=i+r mod(n-i),i=1,2,3,...,n
其中,Vi是URL索引洗牌之后的索引位置,i是URL索引,n是索引的个数,将请求URL和请求参数信息Vi,Cookie信息Ci分别持久化至Redis缓存数据库。
步骤3.2:请求信息的封装,如图3所示,从上述步骤中的队列中分别取出请求URL和请求参数信息Vi和Cookie信息Ci,将Vi作为请求的URL,Ci作为请求的Cookie字段封装进请求头中,同时将请求的User-Agent、Connection和Accept等基本请求头信息封装,组成完整的HTTP请求Ki并将Ki加入请求队列中。
步骤3.3:请求信息的发送,如图3所示,从请求队列中取出封装完成的请求信息Ki,通过Python的Requests模块发送请求,得到请求的返回结果Ri
步骤3.4:失效流量的检测,将请求的返回信息Ri中的请求的类型X1、返回数据量大小X2、请求次数X3、请求协议类型X4、请求响应时间X5和Cookie被使用次数X6作为模型的输入,并输出判定结果;
若流量信息被判别为失效流量,将Cookie的失效字段l置为1(表示失效),Cookie的使用次数t的值增加1,丢弃该请求信息,将其URL重新加入URL的队列中等待重新封装;
若流量信息未被判别为失效流量,将Cookie的失效字段l置为0(表示有效),Cookie的使用次数t的值增加1;
对于失效字段l为1且使用次数t达到阈值v1的Cookie,判定为失效Cookie,将其移出队列;
检查Cookie队列中元素的个数,若元素个数小于v2,则从库文件中重新提取新的Cookie并加入Cookie队列中。
步骤4:流量信息的重复性检测,如图3所示,在数据信息重复检测步骤中,为防止信息的重复爬取,将请求返回的数据包内容通过MD5消息摘要算法进行处理,计算返回数据信息Ti的MD5值,同库中的值比较,若库中已存在该值,则丢弃Ti,若不存在,则将数据信息进行清洗后持久化,并以txt的格式输出。
以上的所述乃是本发明的具体实施例及所运用的技术原理,若依本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附图所涵盖的精神时,仍应属本发明的保护范围。

Claims (7)

1.一种动态检测失效流量的网络爬虫方法,其特征在于,包括如下步骤:
(1)获取目标应用的网络请求信息,通过代理的方式提取网络请求特征,构建动态检测失效流量模型的数据集;
(2)构建机器学习BP神经网络的分类模型,将步骤(1)中的部分数据集作为训练集,剩余部分作为测试集,得到动态检测失效流量的BP神经网络模型;其中得到动态检测失效流量的BP神经网络模型的实现方法如下:
BP神经网络包括输入层、隐藏层和输出层;
1)输入层和输出层设计,模型将请求类型X1,返回数据量大小X2,请求次数X3,请求协议类型X4,请求响应时间X5,Cookie被使用次数X6作为模型的输入,采用3层BP神经网络结构,输出层单个神经元是流量状态的判定结果;
2)输入层6个神经元是流量的对应信息,输出层单个神经元代表流量状态的判定结果,隐含层神经元个数为:
Figure FDA0003544572620000011
其中,n和m分别代表输入神经元和输出神经元的个数,a为常数;
3)流量的对应信息输入为xj,各层之间的权值为wij,隐含层的阈值为aj,则隐含层的输出为:
Figure FDA0003544572620000021
其中,l为隐含层神经元个数;
4)模型中采用的激活函数表达式为:
Figure FDA0003544572620000022
5)根据隐含层输出的Hj,输出层和隐含层之间连接的权值和阈值分别为w和b,得到输出结果T,其表达式为:
Figure FDA0003544572620000023
使用梯度下降算法不断调整模型中各层的输入权重和偏置,获得最佳的预测结果,动态检测失效流量模型建立完成;
(3)分析网络请求,将请求相关的URL和Cookie数据持久化存储;
(4)对数据库中的请求URL和Cookie读取并加入各自的队列中,分别从队列中取出请求的相关URL和Cookie进行封装,发送请求;
(5)利用步骤(2)得到的动态检测失效流量模型,识别判断步骤(4)中请求的返回信息,对失效的流量信息则返回步骤(4),将其URL重新加入步骤(4)的队列中等待重新封装;
(6)计算返回数据包中内容信息的哈希值并判断是否重复;
(7)对返回不重复的内容信息进行持久化存储。
2.根据权利要求1所述的一种动态检测失效流量的网络爬虫方法,其特征在于:所述步骤(1)具体如下:
(1.1)选取聚焦爬虫的目标应用,通过分析软件设置代理软件的证书,配置代理接口,在目标应用的系统中安装证书;
(1.2)对网络爬虫的目标系统进行模拟点击事件,对获取的数据包分析并提取,构建一个可被BP神经网络接收的输入向量:
Figure FDA0003544572620000031
其中,X1、X2、X3、X4、X5、X6分别代表提取请求的类型、返回数据量大小、请求次数、请求协议类型、请求响应时间、Cookie被使用次数,通过标注的方式标记该数据包的预测结果,构建出动态检测失效流量模型的数据集。
3.根据权利要求1所述的一种动态检测失效流量的网络爬虫方法,其特征在于:所述步骤(3)具体包括:
(3.1)将请求相关的URL和Cookie数据持久化存储,通过抓包分析软件分析URL及其各参数的含义,提取其请求URL和请求参数信息si,相关账户的Cookie信息Ci
(3.2)通过局部洗牌法将si进行重新排序并保存至Redis缓存数据库的队列中,如下式所示:
Vi=i+r mod(n-i),i=1,2,3,...,n
其中,Vi是URL索引洗牌之后的索引位置,i是URL索引,n是索引的个数;
(3.3)将请求URL和请求参数信息Vi,Cookie信息Ci分别持久化至Redis缓存数据库。
4.根据权利要求1所述的一种动态检测失效流量的网络爬虫方法,其特征在于:所述步骤(4)对数据库中的请求URL和Cookie读取并加入各自的队列中,分别从队列中取出请求的相关URL和Cookie进行封装并发送请求,具体包括以下步骤:
(4.1)从Redis队列中分别取出请求URL和请求参数信息Vi和Cookie信息Ci,将Vi作为请求的URL,Ci作为请求的Cookie字段封装进请求头中,同时将请求的User-Agent、Connection和Accept基本请求头信息封装,组成完整的HTTP请求Ki,并将Ki加入请求队列中;
(4.2)从请求队列中取出封装完成的请求信息Ki,通过Python的Requests模块发送请求,得到请求的返回结果Ri
5.根据权利要求1所述的一种动态检测失效流量的网络爬虫方法,其特征在于:所述步骤(5)具体包括如下步骤:
(5.1)将步骤(4)中请求的返回信息Ri中的请求的类型X1、返回数据量大小X2、请求次数X3、请求协议类型X4、请求响应时间X5和Cookie被使用次数X6作为模型的输入,并输出判定结果;
(5.2)若流量信息被判别为失效流量,将Cookie的失效字段置为1,1表示失效;Cookie的使用次数t的值增加1,丢弃该请求信息,将其URL重新加入步骤(4)所述的URL的队列中等待重新封装;
(5.3)若流量信息未被判别为失效流量,将Cookie的失效字段置为0,0表示有效,Cookie的使用次数t的值增加1;
(5.4)对于失效字段为1且使用次数t达到阈值v1的Cookie,判定为失效Cookie,将其移出队列;并检查Cookie队列中元素的个数,若元素个数小于v2,则从库文件中重新提取新的Cookie并加入Cookie队列中。
6.根据权利要求1所述的一种动态检测失效流量的网络爬虫方法,其特征在于:所述步骤(6)具体为:将请求返回的信息通过MD5消息摘要算法进行计算,将计算得到的值与已入库的值进行对比,判断是否有重复的值;若重复,则丢弃请求所返回的数据,若不重复则将该摘要值入库并将数据进行持久化。
7.根据权利要求1所述的一种动态检测失效流量的网络爬虫方法,其特征在于:所述步骤(7)包括:在步骤(6)判断数据没有重复的前提下,将数据进行清洗,并以txt文件的形式输出。
CN202110086472.3A 2021-01-22 2021-01-22 一种动态检测失效流量的网络爬虫方法 Active CN112765437B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110086472.3A CN112765437B (zh) 2021-01-22 2021-01-22 一种动态检测失效流量的网络爬虫方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110086472.3A CN112765437B (zh) 2021-01-22 2021-01-22 一种动态检测失效流量的网络爬虫方法

Publications (2)

Publication Number Publication Date
CN112765437A CN112765437A (zh) 2021-05-07
CN112765437B true CN112765437B (zh) 2022-05-17

Family

ID=75702696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110086472.3A Active CN112765437B (zh) 2021-01-22 2021-01-22 一种动态检测失效流量的网络爬虫方法

Country Status (1)

Country Link
CN (1) CN112765437B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268289A (zh) * 2014-10-21 2015-01-07 中国建设银行股份有限公司 链接url的失效检测方法和装置
CN108710672A (zh) * 2018-05-17 2018-10-26 南京大学 一种基于增量贝叶斯算法的主题爬虫方法
CN110912888A (zh) * 2019-11-22 2020-03-24 上海交通大学 一种基于深度学习的恶意http流量检测系统和方法
CN111090802A (zh) * 2020-03-19 2020-05-01 北京热云科技有限公司 一种基于机器学习的恶意网络爬虫监测和处理方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9178901B2 (en) * 2013-03-26 2015-11-03 Microsoft Technology Licensing, Llc Malicious uniform resource locator detection
US9652538B2 (en) * 2013-12-11 2017-05-16 Ebay Inc. Web crawler optimization system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268289A (zh) * 2014-10-21 2015-01-07 中国建设银行股份有限公司 链接url的失效检测方法和装置
CN108710672A (zh) * 2018-05-17 2018-10-26 南京大学 一种基于增量贝叶斯算法的主题爬虫方法
CN110912888A (zh) * 2019-11-22 2020-03-24 上海交通大学 一种基于深度学习的恶意http流量检测系统和方法
CN111090802A (zh) * 2020-03-19 2020-05-01 北京热云科技有限公司 一种基于机器学习的恶意网络爬虫监测和处理方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于网站链接特征的钓鱼网站检测技术研究";袁华平;《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》;20200215;全文 *

Also Published As

Publication number Publication date
CN112765437A (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
US9911143B2 (en) Methods and systems that categorize and summarize instrumentation-generated events
US9699042B2 (en) Systems and methods of classifying sessions
US20120239652A1 (en) Hardware Accelerated Application-Based Pattern Matching for Real Time Classification and Recording of Network Traffic
US11921720B1 (en) Systems and methods for decoupling search processing language and machine learning analytics from storage of accessed data
CN102222098A (zh) 一种网页预取方法和系统
CN110708339B (zh) 一种基于web日志的关联分析方法
CN106126688B (zh) 基于web内容和结构挖掘的智能网络信息采集系统、方法
US20110066608A1 (en) Systems and methods for delivering targeted content to a user
CN113949577A (zh) 一种应用于云服务的数据攻击分析方法及服务器
Balla et al. Real-time web crawler detection
CN106776983A (zh) 搜索引擎优化装置和方法
CN110362663A (zh) 自适应多感知相似度检测和解析
Sujatha Improved user navigation pattern prediction technique from web log data
CN112765437B (zh) 一种动态检测失效流量的网络爬虫方法
Suchacka et al. Efficiency Analysis Of Resource Request Patterns In Classification Of Web Robots And Humans.
Wang et al. Behavior model construction for client side of modern web applications
Bakariya et al. An inclusive survey on data preprocessing methods used in web usage mining
Tchakounte et al. Crawl-shing: A focused crawler for fetching phishing contents based on graph isomorphism
Castellano et al. Log data preparation for mining web usage patterns
Doran Detection, classification, and workload analysis of web robots
JP4286828B2 (ja) Webページ巡回装置及びWebページ巡回プログラム
CN114417345A (zh) 一种基于NLP的Web攻击检测方法
CN114513355A (zh) 恶意域名检测方法、装置、设备及存储介质
Ganibardi et al. Weblog Data Structuration: A Stream-centric approach for improving session reconstruction quality
Huidrom et al. Clustering techniques for the identification of web user session

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant