CN111428108A - 一种基于深度学习的反爬虫方法、装置和介质 - Google Patents

一种基于深度学习的反爬虫方法、装置和介质 Download PDF

Info

Publication number
CN111428108A
CN111428108A CN202010217160.7A CN202010217160A CN111428108A CN 111428108 A CN111428108 A CN 111428108A CN 202010217160 A CN202010217160 A CN 202010217160A CN 111428108 A CN111428108 A CN 111428108A
Authority
CN
China
Prior art keywords
crawler
information
classifier
crawling
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010217160.7A
Other languages
English (en)
Inventor
张洲梁
宗云兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Inspur Genersoft Information Technology Co Ltd
Original Assignee
Shandong Inspur Genersoft Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Inspur Genersoft Information Technology Co Ltd filed Critical Shandong Inspur Genersoft Information Technology Co Ltd
Priority to CN202010217160.7A priority Critical patent/CN111428108A/zh
Publication of CN111428108A publication Critical patent/CN111428108A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/245Classification techniques relating to the decision surface
    • G06F18/2451Classification techniques relating to the decision surface linear, e.g. hyperplane
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于深度学习的反爬虫方法、装置和介质,该方法包括以下步骤:使用爬虫工具对网站进行爬取,并记录普通用户对所述网站的正常访问行为,将所述爬取行为的信息和所述正常访问行为的信息存储在数据库中;根据所述数据库中的信息对爬虫判别模块中的分类器基本模型进行训练;响应于接收到web请求及其IP,将所述请求信息和所述IP的访问历史记录输入到所述训练好的模型中以判断是否为爬虫;响应于判断所述web请求为爬虫,对所述web请求进行拦截并封禁所述IP,并将所述IP写入黑名单中。本发明基于深度学习算法,可以准确识别基于多种爬虫框架的爬虫程序,成功改进了网站反爬机制,识别率高、误杀率低。

Description

一种基于深度学习的反爬虫方法、装置和介质
技术领域
本发明涉及计算机领域,并且更具体地,涉及一种基于深度学习的反爬虫方法、装置和介质。
背景技术
21世纪,人们越来越依靠网络来获取自己想要的数据,但是网络上的数据纷繁复杂,而人们的精力往往是有限的,所以需要借助网络爬取获取数据以便可以进一步分析。但网络爬虫由于其过快的获取数据,会给网站带来负载压力,所以网站负责人会设置反爬虫机制。目前爬虫技术主要为基于python的scrapy框架和selenium框架。前者可以结合分布式框架Redis做成分布式爬虫,后者是采用的模拟人类浏览器的方法,结合beautiful soup库进行爬取。前者采用的是伪造requests请求的header报头的形式,解析返回的response并进行结构化操作。后者采用的是模拟人类浏览行为的浏览器界面进行操作,使用xpath进行网页元素的定位,有的爬虫使用了winapi32等模块,执行鼠标的点击,键盘的输入等手动操作。但网络爬虫由于其过快的获取数据,会给网站带来负载压力,所以网站负责人会设置反爬虫机制。
针对网页爬虫程序,目前的一种反爬机制是将封杀IP作为反爬机制,因为这会给正常用户造成相当大的不便,且使用IP池有时会出现网页的内容异常等情况,所以此方法有一定的局限性。另一种反爬机制是加入了验证码机制,比如语音验证码,图像验证码等。但是也存在人工验证码识别和基于人工智能的验证码识别接口,目前的形式对于反爬机制提出了更高的要求。
发明内容
鉴于此,本发明实施例的目的在于提出一种基于深度学习的反爬虫方法和装置,以解决现有的网站服务器因爬虫问题导致占用并消耗大量服务器资源的问题。
基于上述目的,本发明实施例的一方面提供了一种基于深度学习的反爬虫方法,包括以下步骤:
使用爬虫工具对网站进行爬取,并记录普通用户对所述网站的正常访问行为,将所述爬取行为的信息和所述正常访问行为的信息存储在数据库中;
根据所述数据库中的信息对爬虫判别模块中的分类器基本模型进行训练;
响应于接收到web请求及其IP,将所述请求信息和所述IP的访问历史记录输入到所述训练好的模型中以判断是否为爬虫;
响应于判断所述web请求为爬虫,对所述web请求进行拦截并封禁所述IP,并将所述IP写入黑名单中。
在一些实施方式中,响应于接收到web请求及其IP,将所述请求信息和所述IP的访问历史记录输入到所述训练好的模型中以判断是否为爬虫包括:
将预定时间段内的相同IP的请求信息和访问历史记录共同输入到所述训练好的模型中以判断是否为爬虫。
在一些实施方式中,根据所述数据库中的信息对爬虫判别模块中的分类器基本模型进行训练包括:
在将所述数据库中的信息输入到所述分类器基本模型之前进行正则化处理,并加入dropout机制,以减轻过拟合。
在一些实施方式中,根据所述数据库中的信息对爬虫判别模块中的分类器基本模型进行训练还包括:
所述分类器为二分类器,将所述正则化处理后的信息进行标准化处理后作为判别输入量输入到所述二分类器中。
在一些实施方式中,所述分类器采用SVM机制,所述基本模型是定义在特征空间上的线性分类器。
在一些实施方式中,所述爬虫工具包括基于scrapy框架的爬虫、基于selenium框架的爬虫以及基于伪造headers的爬虫。
在一些实施方式中,使用爬虫工具对网站进行爬取,并记录普通用户对所述网站的正常访问行为,将所述爬取行为的信息和所述正常访问行为的信息存储在数据库中包括:
对不同所述爬虫工具产生的爬取行为进行标注,将所述标注后的爬取行为信息存储到数据库中。
在一些实施方式中,所述方法还包括:
通过可视化界面检查所述黑名单和/或白名单,并手动添加用户到所述黑名单和/或白名单中。
本发明实施例的另一方面提供了一种基于深度学习的反爬虫装置,包括:
至少一个处理器;和
存储器,所述存储器存储有处理器可运行的程序代码,所述程序代码在被处理器运行时实施上述任一项所述的方法。
本发明实施例的另一方面提供了一种计算机介质,包括可被处理器执行的程序代码,所述程序代码在被处理器执行时实施上述任一项所述的方法。
本发明具有以下有益技术效果:本发明实施例提供的一种基于深度学习的反爬虫方法、装置和介质基于深度学习算法,可以准确识别基于多种爬虫框架的爬虫程序,成功改进了网站反爬机制,识别率高、误杀率低。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1是根据本发明的一种基于深度学习的反爬虫方法的流程图;
图2是根据本发明实施例的数据流示意图;
图3是根据本发明的一种基于深度学习的反爬虫装置的硬件结构示意图。
具体实施方式
以下描述了本发明的实施例。然而,应该理解,所公开的实施例仅仅是示例,并且其他实施例可以采取各种替代形式。附图不一定按比例绘制;某些功能可能被夸大或最小化以显示特定部件的细节。因此,本文公开的具体结构和功能细节不应被解释为限制性的,而仅仅是作为用于教导本领域技术人员以各种方式使用本发明的代表性基础。如本领域普通技术人员将理解的,参考任何一个附图所示出和描述的各种特征可以与一个或多个其他附图中所示的特征组合以产生没有明确示出或描述的实施例。所示特征的组合为典型应用提供了代表性实施例。然而,与本发明的教导相一致的特征的各种组合和修改对于某些特定应用或实施方式可能是期望的。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
基于上述目的,本发明的实施例一方面提出了一种基于深度学习的反爬虫方法,如图1所示,包括以下步骤:
步骤S101:使用爬虫工具对网站进行爬取,并记录普通用户对所述网站的正常访问行为,将所述爬取行为的信息和所述正常访问行为的信息存储在数据库中;
步骤S102:根据所述数据库中的信息对爬虫判别模块中的分类器基本模型进行训练;
步骤S103:响应于接收到web请求及其IP,将所述请求信息和所述IP的访问历史记录输入到所述训练好的模型中以判断是否为爬虫;
步骤S104:响应于判断所述web请求为爬虫,对所述web请求进行拦截并封禁所述IP,并将所述IP写入黑名单中。
在一些实施例中,响应于接收到web请求及其IP,将所述请求信息和所述IP的访问历史记录输入到所述训练好的模型中以判断是否为爬虫包括:将预定时间段内的相同IP的请求信息和访问历史记录共同输入到所述训练好的模型中以判断是否为爬虫。为了能够减少爬虫校检模块的校检次数,校检时可以将一段时间内同一个IP的数据进行加工后作为一个输入以判断其类别。
在一些实施例中,根据所述数据库中的信息对爬虫判别模块中的分类器基本模型进行训练包括:在将所述数据库中的信息输入到所述分类器基本模型之前进行正则化处理,并加入dropout机制,以减轻过拟合。
在一些实施例中,根据所述数据库中的信息对爬虫判别模块中的分类器基本模型进行训练还包括:所述分类器为二分类器,将所述正则化处理后的信息进行标准化处理后作为判别输入量输入到所述二分类器中。
在一些实施例中,根据所述数据库中的信息对爬虫判别模块中的分类器基本模型进行训练还包括:所述分类器采用SVM机制,所述基本模型是定义在特征空间上的线性分类器。
在一些实施例中,所述爬虫工具包括基于scrapy框架的爬虫、基于selenium框架的爬虫以及基于伪造headers的爬虫。
在一些实施例中,使用爬虫工具对网站进行爬取,并记录普通用户对所述网站的正常访问行为,将所述爬取行为的信息和所述正常访问行为的信息存储在数据库中包括:对不同所述爬虫工具产生的爬取行为进行标注,将所述标注后的爬取行为信息存储到数据库中。
在一些实施例中,所述方法还包括:通过可视化界面检查所述黑名单和/或白名单,并手动添加用户到所述黑名单和/或白名单中。
在根据本发明的一个实施例中,设计反爬虫模块以实现上述反爬虫方法。其中,为了防止反爬虫模块占用太多原web服务器资源,反爬虫模块采取服务化架构的模式,将反爬取模块和原有服务器分开。反爬虫服务器上需要部署python开发环境和tensorflow框架,具体环境优选为:Tensorflow版本:tensorflow_gpu-1.13.0;Python版本:2.7、3.3-3.6;编译器:GCC 4.8;编译工具:Bazel 0.19.2;cuDNN:7.4;CUDA:10.0。在一个优选方案中,反爬虫服务器中的GPU的算力(Compute Capability)要求不低于3.5。
在一个优选实施例中,部署数据发送和接收模块,本模块承担原WEB服务器端和反爬虫服务器端的消息传递的任务。其DFD数据流示意图如附图2所示。设计发送和接收模块时,为了最大化的减少对原服务器端的影响,应采取以下措施:访问数据的发送不应该和用户访问串行,原WEB服务器在接收到一条web请求后应将请求数据封装成消息放入统一队列中,并由专门的发送机制进行发送;在上下行带宽允许下,采集接收模块设计为异步传输模式,尽可能提高消息发送速率;发送程序设计为非阻塞的方式,提高发送效率,出现阻塞时,允许一次性发送多条用户数据,提高单位时间内消息发送数量;在大量堆积至满时,并不会阻塞访问数据的添加,而是去除最早的数据然后添加,减少因为访问过多数据采集接收模块对原WEB服务器的影响。
在一个优选实施例中,部署爬虫判别模块,本模块根据接收到的访问请求及其IP的访问历史记录,生成特定的访问数据输入到训练好的模型中计算出权重。为了保证服务提供的实时性,本系统可以采取以下措施:降低Web服务器发送访问数据的频率;提高反爬服务器的性能,采用高性能的GPU和高并发量的处理器,也可采用分布式服务;减少爬虫校检模块的校检次数,校检时可以将一段时间内同一个IP的数据进行加工后作为一个输入判断其类别。为了提高算法服务的准确度,本系统可以采取以下措施:增加网站用户的访问样本量,样本数量多可以保证训练过程不会欠拟合,提高模型训练的精确度同时减少过拟合;使用多种拟合方式,使得损失函数平滑化;将数据进行正则化处理,同时加入dropout机制,进一步减轻过拟合;在改进的SVM决策树环节进行剪枝处理,采用投票多数的样本作为该叶子节点的预测值。
在一个优选实施例中,爬虫判别模块如果接受到判别请求应该对缓存访问数据进行正则化处理,将正则化数据加工后作为判别输入量输入到二分类器中。在二分类器上一共划分为二个模块,分别为数据加工模块和分类器训练模块,其中。数据加工模块将正则化后存在数据库中的用户访问数据进行标准化处理。分类器训练模块中分类器采取了SVM机制,基本模型是定义在特征空间上的线性分类器。SVM的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题。该模型的训练目标为求出用户访问事件集中最大集合间隔。本模型采用高斯基函数作为核函数,在高斯基函数:
Figure BDA0002424852690000071
中,
Figure BDA0002424852690000072
可以看成两个特征向量之间的平方欧几里得距离,σ2是一个自由参数。在应对数据噪声时,高斯径向基核具有较好的抗干扰能力。
如果分类为爬虫则记录,如果分类为爬虫一小时内达到3次则判别为爬虫,同时反爬虫服务器发送其IP和行为记录到WEB服务器上的请求和封禁模块以进行处理。
在一个优选实施例中,部署请求拦截和封禁模块,本模块部署在WEB服务器上,主要承担数据收集、判断是否在被封禁的名单里,根据爬虫判别模块生成的结果判断是否响应的作用。本模块接收爬虫判别模块服务器上发送的判别信息,判断请求的行为是否为爬虫。同时使用session ID(会话ID)的使用次数作为校检值。对一些普通的爬虫进行反爬处理,但是这种方法在遇上可以实时设置cookie的爬虫时不起作用,只作为初步反爬机制。
在一个优选实施例中,部署系统管理模块,该模块部署在Web服务器上,开发可视化界面,便于网站管理员检查白名单、黑名单(被封禁IP和IP池)以及手动添加用户。同时加入数据可视化模块,检查训练的效果。
在一些实施例中,开发爬虫工具分为scrapy框架的爬虫、selenium框架的爬虫以及基于伪造headers的爬虫,并且对爬虫行为进行标注,存储到数据库中。
使用开发好的爬虫工具对网站进行爬取,同时网站正常开放,对普通访问用户的行为进行记录。将爬取行为的信息和正常访问的记录分为以下几个维度的信息存储进数据库中:请求中报头中含有的User-Agent、Cookie、Referer信息;各个Session的持续时长,获取页面数量,相对应IP数量,判断窗口中最早访问记录是否和上一个窗口最晚访问记录属于同一个对话中;单次会话最长时间;以及统计其访问错误、页面重复次数、图片/文字链接比例。
在技术上可行的情况下,以上针对不同实施例所列举的技术特征可以相互组合,或者改变、添加以及省略等等,从而形成本发明范围内的另外实施例。
从上述实施例可以看出,本发明实施例提供的一种基于深度学习的反爬虫方法基于深度学习算法,可以准确识别基于多种爬虫框架的爬虫程序,成功改进了网站反爬机制,识别率高、误杀率低。
基于上述目的,本发明实施例的另一个方面,提出了一种基于深度学习的反爬虫装置的一个实施例。
所述基于深度学习的反爬虫装置包括存储器、和至少一个处理器,存储器存储有可在处理器上运行的计算机程序,处理器执行程序时执行上述任意一种方法。
基于上述目的,本发明实施例的又一个方面,提出了一种计算机介质,包括可被处理器执行的程序代码,所述程序代码在被处理器执行时实施上述任一项所述的方法。
如图3所示,为本发明提供的基于深度学习的反爬虫装置的一个实施例的硬件结构示意图。
以如图3所示的计算机装置为例,在该计算机装置中包括处理器301以及存储器302,并还可以包括:输入装置303和输出装置304。
处理器301、存储器302、输入装置303和输出装置304可以通过总线或者其他方式连接,图3中以通过总线连接为例。
存储器302作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的所述基于深度学习的反爬虫方法对应的程序指令/模块。处理器301通过运行存储在存储器302中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的基于深度学习的反爬虫方法。
存储器302可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据基于深度学习的反爬虫方法所创建的数据等。此外,存储器302可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器302可选包括相对于处理器301远程设置的存储器,这些远程存储器可以通过网络连接至本地模块。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置303可接收输入的数字或字符信息,以及产生与基于深度学习的反爬虫方法的计算机设备的用户设置以及功能控制有关的键信号输入。输出装置304可包括显示屏等显示设备。
所述一个或者多个基于深度学习的反爬虫方法对应的程序指令/模块存储在所述存储器302中,当被所述处理器301执行时,执行上述任意方法实施例中的基于深度学习的反爬虫方法。
所述执行所述基于深度学习的反爬虫方法的计算机设备的任何一个实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。
此外,典型地,本发明实施例公开所述的装置、设备等可为各种电子终端设备,例如手机、个人数字助理(PDA)、平板电脑(PAD)、智能电视等,也可以是大型终端设备,如服务器等,因此本发明实施例公开的保护范围不应限定为某种特定类型的装置、设备。本发明实施例公开所述的客户端可以是以电子硬件、计算机软件或两者的组合形式应用于上述任意一种电子终端设备中。
此外,根据本发明实施例公开的方法还可以被实现为由CPU执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时,执行本发明实施例公开的方法中限定的上述功能。
此外,上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
此外,应该明白的是,本文所述的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的,非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM),该RAM可以充当外部高速缓存存储器。作为例子而非限制性的,RAM可以以多种形式获得,比如同步RAM(DRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDRSDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)、以及直接Rambus RAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现所述的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
结合这里的公开所描述的各种示例性逻辑块、模块和电路可以利用被设计成用于执行这里所述功能的下列部件来实现或执行:通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。通用处理器可以是微处理器,但是可替换地,处理器可以是任何传统处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP和/或任何其它这种配置。
结合这里的公开所描述的方法或算法的步骤可以直接包含在硬件中、由处理器执行的软件模块中或这两者的组合中。软件模块可以驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域已知的任何其它形式的存储介质中。示例性的存储介质被耦合到处理器,使得处理器能够从该存储介质中读取信息或向该存储介质写入信息。在一个替换方案中,所述存储介质可以与处理器集成在一起。处理器和存储介质可以驻留在ASIC中。ASIC可以驻留在用户终端中。在一个替换方案中,处理器和存储介质可以作为分立组件驻留在用户终端中。
在一个或多个示例性设计中,所述功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将所述功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、DSL或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器、磁盘或光盘等。
上述实施例是实施方式的可能示例,并且仅仅为了清楚理解本发明的原理而提出。所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上所述的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

Claims (10)

1.一种基于深度学习的反爬虫方法,其特征在于,包括以下步骤:
使用爬虫工具对网站进行爬取,并记录普通用户对所述网站的正常访问行为,将所述爬取行为的信息和所述正常访问行为的信息存储在数据库中;
根据所述数据库中的信息对爬虫判别模块中的分类器基本模型进行训练;
响应于接收到web请求及其IP,将所述请求信息和所述IP的访问历史记录输入到所述训练好的模型中以判断是否为爬虫;
响应于判断所述web请求为爬虫,对所述web请求进行拦截并封禁所述IP,并将所述IP写入黑名单中。
2.根据权利要求1所述的方法,其特征在于,响应于接收到web请求及其IP,将所述请求信息和所述IP的访问历史记录输入到所述训练好的模型中以判断是否为爬虫包括:
将预定时间段内的相同IP的请求信息和访问历史记录共同输入到所述训练好的模型中以判断是否为爬虫。
3.根据权利要求1所述的方法,其特征在于,根据所述数据库中的信息对爬虫判别模块中的分类器基本模型进行训练包括:
在将所述数据库中的信息输入到所述分类器基本模型之前进行正则化处理,并加入dropout机制,以减轻过拟合。
4.根据权利要求3所述的方法,其特征在于,根据所述数据库中的信息对爬虫判别模块中的分类器基本模型进行训练还包括:
所述分类器为二分类器,将所述正则化处理后的信息进行标准化处理后作为判别输入量输入到所述二分类器中。
5.根据权利要求4所述的方法,其特征在于,所述分类器采用SVM机制,所述基本模型是定义在特征空间上的线性分类器。
6.根据权利要求1所述的方法,其特征在于,所述爬虫工具包括基于scrapy框架的爬虫、基于selenium框架的爬虫以及基于伪造headers的爬虫。
7.根据权利要求6所述的方法,其特征在于,使用爬虫工具对网站进行爬取,并记录普通用户对所述网站的正常访问行为,将所述爬取行为的信息和所述正常访问行为的信息存储在数据库中包括:
对不同所述爬虫工具产生的爬取行为进行标注,将所述标注后的爬取行为信息存储到数据库中。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过可视化界面检查所述黑名单和/或白名单,并手动添加用户到所述黑名单和/或白名单中。
9.一种基于深度学习的反爬虫装置,其特征在于,包括:
至少一个处理器;和
存储器,所述存储器存储有处理器可运行的程序代码,所述程序代码在被处理器运行时实施如权利要求1-8中任一项所述的方法。
10.一种计算机介质,其特征在于,包括可被处理器执行的程序代码,所述程序代码在被处理器执行时实施如权利要求1-8中任一项所述的方法。
CN202010217160.7A 2020-03-25 2020-03-25 一种基于深度学习的反爬虫方法、装置和介质 Pending CN111428108A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010217160.7A CN111428108A (zh) 2020-03-25 2020-03-25 一种基于深度学习的反爬虫方法、装置和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010217160.7A CN111428108A (zh) 2020-03-25 2020-03-25 一种基于深度学习的反爬虫方法、装置和介质

Publications (1)

Publication Number Publication Date
CN111428108A true CN111428108A (zh) 2020-07-17

Family

ID=71548751

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010217160.7A Pending CN111428108A (zh) 2020-03-25 2020-03-25 一种基于深度学习的反爬虫方法、装置和介质

Country Status (1)

Country Link
CN (1) CN111428108A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112688919A (zh) * 2020-12-11 2021-04-20 杭州安恒信息技术股份有限公司 一种基于app接口的反爬虫方法、设备及介质
CN113542223A (zh) * 2021-06-16 2021-10-22 杭州拼便宜网络科技有限公司 基于设备指纹的反爬虫方法
CN114528106A (zh) * 2022-02-17 2022-05-24 西安电子科技大学 雷达信号分选中利用gpu加速决策树训练的方法
CN114710318A (zh) * 2022-03-03 2022-07-05 戎行技术有限公司 一种限制爬虫高频访问的方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106790105A (zh) * 2016-12-26 2017-05-31 携程旅游网络技术(上海)有限公司 基于业务数据的爬虫识别拦截方法及系统
WO2017190641A1 (zh) * 2016-05-03 2017-11-09 北京京东尚科信息技术有限公司 拦截爬虫的方法、装置、服务器终端以及计算机可读介质
CN109582844A (zh) * 2018-11-07 2019-04-05 北京三快在线科技有限公司 一种识别爬虫的方法、装置及系统
CN109862018A (zh) * 2019-02-21 2019-06-07 中国工商银行股份有限公司 基于用户访问行为的反爬虫方法及系统
CN110166462A (zh) * 2019-05-25 2019-08-23 深圳市元征科技股份有限公司 访问控制方法、系统、电子设备及计算机存储介质
CN110474890A (zh) * 2019-07-29 2019-11-19 深圳数位传媒科技有限公司 一种基于智能流量导向切换的数据反爬取方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017190641A1 (zh) * 2016-05-03 2017-11-09 北京京东尚科信息技术有限公司 拦截爬虫的方法、装置、服务器终端以及计算机可读介质
CN106790105A (zh) * 2016-12-26 2017-05-31 携程旅游网络技术(上海)有限公司 基于业务数据的爬虫识别拦截方法及系统
CN109582844A (zh) * 2018-11-07 2019-04-05 北京三快在线科技有限公司 一种识别爬虫的方法、装置及系统
CN109862018A (zh) * 2019-02-21 2019-06-07 中国工商银行股份有限公司 基于用户访问行为的反爬虫方法及系统
CN110166462A (zh) * 2019-05-25 2019-08-23 深圳市元征科技股份有限公司 访问控制方法、系统、电子设备及计算机存储介质
CN110474890A (zh) * 2019-07-29 2019-11-19 深圳数位传媒科技有限公司 一种基于智能流量导向切换的数据反爬取方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
余豪士;匡芳君;: "基于Python的反反爬虫技术分析与应用" *
刘宇;程学林;: "基于决策树算法的爬虫识别技术" *
刘长琦;: "基于Web爬虫的学习资源采集系统设计与实现" *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112688919A (zh) * 2020-12-11 2021-04-20 杭州安恒信息技术股份有限公司 一种基于app接口的反爬虫方法、设备及介质
CN113542223A (zh) * 2021-06-16 2021-10-22 杭州拼便宜网络科技有限公司 基于设备指纹的反爬虫方法
CN114528106A (zh) * 2022-02-17 2022-05-24 西安电子科技大学 雷达信号分选中利用gpu加速决策树训练的方法
CN114528106B (zh) * 2022-02-17 2024-05-17 西安电子科技大学 雷达信号分选中利用gpu加速决策树训练的方法
CN114710318A (zh) * 2022-03-03 2022-07-05 戎行技术有限公司 一种限制爬虫高频访问的方法、装置、设备及介质
CN114710318B (zh) * 2022-03-03 2024-03-22 戎行技术有限公司 一种限制爬虫高频访问的方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN111428108A (zh) 一种基于深度学习的反爬虫方法、装置和介质
Mahdavifar et al. Application of deep learning to cybersecurity: A survey
US11190562B2 (en) Generic event stream processing for machine learning
WO2017084586A1 (zh) 基于深度学习方法推断恶意代码规则的方法、系统及设备
US20170024660A1 (en) Methods and Systems for Using an Expectation-Maximization (EM) Machine Learning Framework for Behavior-Based Analysis of Device Behaviors
JP2017536594A (ja) モバイルデバイス挙動のアグリゲートマルチアプリケーション挙動分析のための方法およびシステム
JP2018510403A (ja) 改善されたマルウェア保護のためにモバイルデバイスとの偽ユーザ対話を検出するための方法および装置
Subramanian et al. A focus on future cloud: machine learning-based cloud security
US20190370384A1 (en) Ensemble-based data curation pipeline for efficient label propagation
CN110674188A (zh) 一种特征提取方法、装置及设备
CN115941322B (zh) 基于人工智能的攻击检测方法、装置、设备及存储介质
CN110995652B (zh) 一种基于深度迁移学习的大数据平台未知威胁检测方法
Wang et al. An unknown protocol syntax analysis method based on convolutional neural network
CN116346397A (zh) 网络请求异常检测方法及其装置、设备、介质、产品
Mendes et al. Enhancing user privacy in mobile devices through prediction of privacy preferences
CN113934611A (zh) 访问信息的统计方法、装置、电子设备及可读存储介质
CN110460593B (zh) 一种移动流量网关的网络地址识别方法、装置及介质
CN115660073B (zh) 基于和声鲸鱼优化算法的入侵检测方法和系统
US10885160B1 (en) User classification
TWI810339B (zh) 關鍵字廣告惡意點擊分析系統
US20210390001A1 (en) Techniques for transferring data within and between computing environments
Xie et al. Research and application of intrusion detection method based on hierarchical features
Sui et al. Edge computing and AIoT based network intrusion detection mechanism
TWM587784U (zh) 關鍵字廣告惡意點擊分析系統
CN115150165B (zh) 一种流量识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination