CN111090802B - 一种基于机器学习的恶意网络爬虫监测和处理方法及系统 - Google Patents

一种基于机器学习的恶意网络爬虫监测和处理方法及系统 Download PDF

Info

Publication number
CN111090802B
CN111090802B CN202010193784.XA CN202010193784A CN111090802B CN 111090802 B CN111090802 B CN 111090802B CN 202010193784 A CN202010193784 A CN 202010193784A CN 111090802 B CN111090802 B CN 111090802B
Authority
CN
China
Prior art keywords
data
crawler
link
neural network
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010193784.XA
Other languages
English (en)
Other versions
CN111090802A (zh
Inventor
张鑫明
白冬立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Hot Cloud Technology Co ltd
Original Assignee
Beijing Hot Cloud Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Hot Cloud Technology Co ltd filed Critical Beijing Hot Cloud Technology Co ltd
Priority to CN202010193784.XA priority Critical patent/CN111090802B/zh
Publication of CN111090802A publication Critical patent/CN111090802A/zh
Application granted granted Critical
Publication of CN111090802B publication Critical patent/CN111090802B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种基于机器学习的恶意网络爬虫监测和处理方法及系统,其中方法包括获取最原始数据,还包括以下步骤:处理所述最原始数据,并生成数据集;将所述数据集在PSO‑BP神经网络下训练数据,并建立神经网络模型;在服务器入口部署配置软件,把待判断的数据输入决策树和神经网络模型,判断链接是否为爬虫链接;对所述爬虫链接进行处理。

Description

一种基于机器学习的恶意网络爬虫监测和处理方法及系统
技术领域
本发明涉及文本词特征提取的技术领域,特别是一种基于机器学习的恶意网络爬虫监测和处理方法及系统。
背景技术
网络爬虫,又被称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取网络信息的程序或者脚本。其爬行对象从一些种子URL扩充到整个Web,可为门户站点搜索引擎和大型Web服务提供商提供原始数据。搜索引擎一般是善意的爬虫,爬取网站的所有页面,提供给其他用户进行快速搜索和访问,给网站带来流量。然而,如同其他技术,爬虫也是一把双刃剑,尤其是近年来“大数据”概念吸引了众多公司肆意爬取其他公司的数据,恶意爬虫充斥互联网,不但不遵守Robots规则对服务器造成了压力,也不为网站带来流量,往往通过分析并自行构造参数对非公开接口进行数据爬取或提交,获取对方本不愿意被大量获取的数据,给对方服务器性能造成极大损耗。
申请公开号为CN109818949A的发明专利申请公开了一种基于神经网络的反爬虫方法,通过部署神经网络于服务器入口处,可对远端恶意爬虫请求中的特征进行识别学习,对恶意爬虫在空间及时间上的行为特征进行快速高效提取识别;有效检测通过伪装的恶意爬虫,阻止高级爬虫自动完成验证码填写,降低代理IP或端口被永久封禁的风险,保护服务端数据安全和业务正常有序开展。并且使服务器不易被爬虫攻破,具有较强安全性和稳定性,同时相对于其他规范固定的反爬虫机制,可以有效防止误伤,降低误伤率,保障系统正常业务运行不受影响。该方法的缺点是只能按照ip处理,无法分析出由于爬虫代码使用ip池切换大量ip使爬虫频率大大降低而无法识别是否为爬虫。
发明内容
为了解决上述的技术问题,本发明提出的基于机器学习的恶意网络爬虫监测和处理方法及系统,该系统的技术方案分为三部分。第一部分是训练数据的处理,处理在hadoopYarn框架下进行,该框架能够解决原hadoop框架处理大数据时出现的单点故障问题,第二部分是训练数据、生成模型,需要在基于PSO优化的BP神经网络下进行。该网络能够提高BP神经网络的泛化能力、学习能力,并且大大提升它的收敛速度。第三部分为爬虫监测处理,监测需要在Flink大数据处理框架下进行。该框架能够实时处理海量数据。
本发明的第一目的是提供一种基于机器学习的恶意网络爬虫监测和处理方法,包括获取最原始数据,还包括以下步骤:
步骤1:处理所述最原始数据,并生成数据集;
步骤2:将所述数据集在PSO-BP神经网络下训练数据,并建立神经网络模型;
步骤3:在服务器入口部署配置软件,把待判断的数据输入决策树和神经网络模型,判断链接是否为爬虫链接;
步骤4:对所述爬虫链接进行处理。
优选的是,所述最原始数据包括访问IP访问时携带的参数、访问频率和该IP访问平台的所有不同链接中至少一种。
在上述任一方案中优选的是,所述步骤1包括把所述最原始数据中的IP、能够定位到具体用户的数据、校验参数、访问链接和访问时间分别作为关键字,按照一定格式保存为一条数据。
在上述任一方案中优选的是,保存为一定格式的一条数据的处理在hadoop Yarn框架下进行,把处理好的数据按照2:1的比例分为训练集和测试集。
在上述任一方案中优选的是,所述PSO-BP神经网络为基于PSO优化的BP神经网络,将sigmoid激活参数进行改进,公式为:
Figure 663872DEST_PATH_IMAGE001
其中,
Figure 799319DEST_PATH_IMAGE002
为激活函数的输入值。
在上述任一方案中优选的是,训练所述神经网络模型时,输入值为hadoop Yarn框架下处理好的数据里的所有参数。
在上述任一方案中优选的是,所述配置软件使用Flink大数据处理框架实时处理请求链接,把请求链接数据进行处理;所述Flink大数据处理框架把所有处理好的数据通过决策树验证关键参数是否为模拟生成的假参数,快速过滤出爬虫链接。
在上述任一方案中优选的是,所述决策树验证方法包括以下子步骤:
步骤31:设定正常用户访问的最高频率作为验证阈值;
步骤32:检查访问频率,把超过所述验证阈值的用户的链接视为爬虫链接;
步骤33:检查请求链接的请求参数是否全并检查所述请求参数是否符合网站相应加密规则;
步骤34:对于请求参数不全或请求参数完全不符合网站相应加密规则的链接归为爬虫链接,对于请求参数部分相符网站相应加密规则的链接留给神经网络进行处理。
在上述任一方案中优选的是,所述爬虫链接的处理方法包括:
1)对于每分钟爬取次数没有超过设定阈值的爬虫采用以下两种方法中至少一种:(1)增加服务器响应时间,(2)返回假数据或返回固定数据或不返回数据;
2)对于每分钟爬取次数超过设定阈值的爬虫链接采用封ip地址、设计防火墙和封跑爬虫链接程序的主机中至少一种操作。
本发明的第二目的是提供一种基于机器学习的恶意网络爬虫监测和处理系统,包括用于获取最原始数据的数据获取模块,还包括以下模块:
数据处理模块:用于处理所述最原始数据,并生成数据集;
模型建立模块:用于将所述数据集在PSO-BP神经网络下训练数据,并建立神经网络模型;
爬虫判断模块:用于在服务器入口部署配置软件,把待判断的数据输入决策树和神经网络模型,判断链接是否为爬虫链接;
爬虫处理模块:用于对所述爬虫链接进行处理;
所述系统通过如第一目的所述的方法进行恶意网路爬虫监测和处理。
优选的是,所述最原始数据包括访问IP访问时携带的参数、访问频率和该IP访问平台的所有不同链接中至少一种。
在上述任一方案中优选的是,所述数据处理模块还用于把所述最原始数据中的IP、能够定位到具体用户的数据、校验参数、访问链接和访问时间分别作为关键字,按照一定格式保存为一条数据。
在上述任一方案中优选的是,保存为一定格式的一条数据的处理在hadoop Yarn框架下进行,把处理好的数据按照2:1的比例分为训练集和测试集。
在上述任一方案中优选的是,所述PSO-BP神经网络为基于PSO优化的BP神经网络,将sigmoid激活参数进行改进,公式为:
Figure 550237DEST_PATH_IMAGE003
其中,
Figure 454739DEST_PATH_IMAGE002
为激活函数的输入值。
在上述任一方案中优选的是,训练所述神经网络模型时,输入值为hadoop Yarn框架下处理好的数据里的所有参数。
在上述任一方案中优选的是,所述配置软件使用Flink大数据处理框架实时处理请求链接,把请求链接数据进行处理;所述Flink大数据处理框架把所有处理好的数据通过决策树验证关键参数是否为模拟生成的假参数,快速过滤出爬虫链接。
在上述任一方案中优选的是,所述决策树验证方法包括以下子步骤:
步骤31:设定正常用户访问的最高频率作为验证阈值;
步骤32:检查访问频率,把超过所述验证阈值的用户的链接视为爬虫链接;
步骤33:检查请求链接的请求参数是否全并检查所述请求参数是否符合网站相应加密规则;
步骤34:对于请求参数不全或请求参数完全不符合网站相应加密规则的链接归为爬虫链接,对于请求参数部分相符网站相应加密规则的链接留给神经网络进行处理。
在上述任一方案中优选的是,所述爬虫链接的处理方法包括:
1)对于每分钟爬取次数没有超过设定阈值的爬虫链接采用以下两种方法中至少一种:(1)增加服务器响应时间,(2)返回假数据或返回固定数据或不返回数据;
2)对于每分钟爬取次数超过设定阈值的爬虫链接采用封ip地址、设计防火墙和封跑爬虫程序的主机中至少一种操作。
本发明提出了一种基于机器学习的恶意网络爬虫监测和处理方法及系统,该系统请求处理响应更快,监测爬虫更精确,对恶意爬虫的处理更有效。
Sigmoid函数是一个在生物学中常见的S型函数,Sigmoid函数常被用作神经网络的激活函数。
附图说明
图1为按照本发明的基于机器学习的恶意网络爬虫监测和处理方法的一优选实施例的流程图。
图1A为按照本发明的基于机器学习的恶意网络爬虫监测和处理方法的如图1所示实施例的决策树验证方法流程图。
图2为按照本发明的基于机器学习的恶意网络爬虫监测和处理系统的一优选实施例的模块图。
图3为按照本发明的基于机器学习的恶意网络爬虫监测和处理方法的一优选实施例的决策树模型示意图。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的阐述。
实施例一
如图1所示,执行步骤100,获取最原始数据。最原始数据包括访问IP访问时携带的参数、访问频率和该IP访问平台的所有不同链接中至少一种。
执行步骤110,处理所述最原始数据,并生成数据集。把所述最原始数据中的IP、能够定位到具体用户的数据、校验参数、访问链接和访问时间分别作为关键字,按照一定格式保存为一条数据。保存为一定格式的一条数据的处理在hadoop Yarn框架下进行,把处理好的数据按照2:1的比例分为训练集和测试集。
执行步骤120,将所述数据集在PSO-BP神经网络下训练数据,并建立神经网络模型。PSO-BP神经网络为基于PSO优化的BP神经网络,将sigmoid激活参数进行改进,公式为:
Figure 898490DEST_PATH_IMAGE004
其中,
Figure 455986DEST_PATH_IMAGE002
为激活函数的输入值。训练所述神经网络模型时,输入值为hadoop Yarn框架下处理好的数据里的所有参数。
执行步骤130,在服务器入口部署配置软件,把待判断的数据输入决策树和神经网络模型,判断链接是否为爬虫链接。配置软件使用Flink大数据处理框架实时处理请求链接,把请求链接数据进行处理。Flink大数据处理框架把所有处理好的数据通过决策树验证关键参数是否为模拟生成的假参数,快速过滤出爬虫链接。如图1A所述,决策树验证方法如下:执行步骤131,设定正常用户访问的最高频率作为验证阈值。执行步骤132,判断访问频率是否超过验证阈值。如果访问频率超过验证阈值,则执行步骤135,将该用户的链接视为爬虫链接。如果访问频率没有超过验证阈值,则执行步骤133,检查请求链接的请求参数是否全。如果参数不全,则执行步骤135,将该用户的链接视为爬虫链接。如果参数不全,则执行步骤134,检查所述请求参数是否符合网站相应加密规则。如果请求参数完全不符合网站相应加密规则,则执行步骤135,将该用户的链接视为爬虫链接。如果参数符合加密规则,则执行步骤136,将该用户的链接标注为非爬虫链接。如果请求参数部分相符网站相应加密规则,则执行步骤137,将链接留给神经网络进行处理。
执行步骤140,对所述爬虫链接进行处理。爬虫链接的处理方法包括对于每分钟爬取次数没有超过设定阈值的爬虫链接采用以下两种方法中至少一种:(1)增加服务器响应时间,(2)返回假数据或返回固定数据或不返回数据,还包括对每分钟爬取次数超过设定阈值的爬虫链接采用封ip地址、设计防火墙和封跑爬虫程序的主机中至少一种操作。在本实施例中,阈值设定为20次/分钟。
实施例二
如图2所示,一种基于机器学习的恶意网络爬虫监测和处理系统,包括数据获取模块200、数据处理模块210、模型建立模块220、爬虫判断模块230和爬虫处理模块240。
数据获取模块200用于获取最原始数据。最原始数据包括访问IP访问时携带的参数、访问频率和该IP访问平台的所有不同链接中至少一种。
数据处理模块210用于处理所述最原始数据,并生成数据集。数据处理模块还用于把所述最原始数据中的IP、能够定位到具体用户的数据、校验参数、访问链接和访问时间分别作为关键字,按照一定格式保存为一条数据。保存为一定格式的一条数据的处理在hadoop Yarn框架下进行,把处理好的数据按照2:1的比例分为训练集和测试集。
模型建立模块220用于将所述数据集在PSO-BP神经网络下训练数据,并建立神经网络模型。PSO-BP神经网络为基于PSO优化的BP神经网络,将sigmoid激活参数进行改进,公式为:
Figure 948278DEST_PATH_IMAGE005
其中,
Figure 238445DEST_PATH_IMAGE002
为激活函数的输入值。训练所述神经网络模型时,输入值为hadoop Yarn框架下处理好的数据里的所有参数。
爬虫判断模块230用于在服务器入口部署配置软件,把待判断的数据输入决策树和神经网络模型,判断链接是否为爬虫链接。配置软件使用Flink大数据处理框架实时处理请求链接,把请求链接数据进行处理。Flink大数据处理框架把所有处理好的数据通过决策树验证关键参数是否为模拟生成的假参数,快速过滤出爬虫链接。所述决策树验证方法包括以下子步骤:步骤31:设定正常用户访问的最高频率作为验证阈值;步骤32:检查访问频率,把超过所述验证阈值的用户的链接视为爬虫链接;步骤33:检查请求链接的请求参数是否全并检查所述请求参数是否符合网站相应加密规则;步骤34:对于请求参数不全或请求参数完全不符合网站相应加密规则的链接归为爬虫链接,对于请求参数部分相符网站相应加密规则的链接留给神经网络进行处理。
爬虫处理模块240用于对所述爬虫链接进行处理。爬虫链接的处理方法包括对于每分钟爬取次数没有超过设定阈值的爬虫链接采用以下两种方法中至少一种:(1)增加服务器响应时间,(2)返回假数据或返回固定数据或不返回数据,还包括对于每分钟爬取次数超过设定阈值的爬虫链接采用封ip地址、设计防火墙和封跑爬虫程序的主机中至少一种操作。
实施例三
一、生成用户画像原始数据
最原始数据:分析访问ip 访问携带参数,提取访问链接重要相关参数,获取访问频率,获取该ip访问平台的所有不同链接。
处理数据:将最原始数据进行处理,把ip和能够定位到具体用户的数据作为关键字。把其他如链接携带的相关参数、访问时间作为其他参数保存为一条数据。也就是说每条链接保存为一条数据。每条数据都按照一定的格式保存。最后针对每个用户就有大量的数据。
数据的处理在hadoop Yarn框架下进行。该框架是hadoopMapReduce 框架的V2版本,改善了作为 Map-reduce 集中处理点的JobTracker单点故障问题。
把处理好的数据按比例2:1分成训练集和测试集。
二、训练数据建立模型
bp(back propagation)神经网络是一种前馈神经网络,该网络输入信息正向传递、权重误差调整通过逆向进行。同时具有非线性的映射能力。为适应爬虫链接参数的分析学习,提出改进的sigmoid激活函数(1)。原sigmoid激活函数当输入值稍稍远离坐标原点梯度值变化就会很低,会使反向传播修改权重没有效果。
Figure 804162DEST_PATH_IMAGE006
(1)
粒子群优化(particle swaITn optimization,PSO)是一种基于种群的随机优化技术。粒子群中每个粒子代表一个可能解,通过单个粒子的行为,群体内粒子互相通信来解决最终问题。使用基于PSO优化的bp神经网络能够很好地解决原神经网络容易陷入局部极小值问题。
使用第一步处理好的数据集在PSO-BP神经网络下训练数据,最后得到神经网络中间各层各节点之间的权重值。得到模型。通过该模型可根据输入的数据得出链接是否为爬虫链接。
训练PSO-BP神经网络模型,输入值是hadoop Yarn框架下处理好的数据,里边所有参数作为输入值。该模型着重分析不同ip用户部分请求参数相同的问题,是为了应对爬虫更换大量ip的现象。
三、部署
在用于处理网站请求的服务器入口配置爬虫监测处理软件。该软件使用Flink大数据处理框架实时处理请求链接。处理时先通过决策树过滤链接。决策树能够快速分析得出结果。若链接中的关键参数为模拟生成的假参数则分析结果为恶意爬虫,若参数完全没有问题则分析结果为正常请求。其他情况作为不确定处理,后续把该链接数据输入到训练好的PSO-BP神经网络模型中,进一步分析是否为恶意爬虫。
决策树模型图如图3所示。
设定正常用户访问的最高频率作为阈值。首先过滤访问频率,把超过阈值的用户视为爬虫。过滤一批爬虫请求之后,再检查请求参数是否全,参数是否符合网站相应加密规则。对于完全不符的归为爬虫,对于部分相符的留给神经网络进行处理。
四、爬虫处理
1.对于频率不高的爬虫处理:增加服务器响应时间,返回假数据或返回固定数据或不返回数据。
2.对于频率较高-的爬虫处理:封ip,设防火墙,封跑爬虫程序的主机。
该系统适用于网页和app爬虫的预防处理。
为了更好地理解本发明,以上结合本发明的具体实施例做了详细描述,但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改,均仍属于本发明技术方案的范围。本说明书中每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

Claims (7)

1.一种基于机器学习的恶意网络爬虫监测和处理方法,包括获取最原始数据,其特征在于,还包括以下步骤:
步骤1:处理所述最原始数据,并生成数据集;
步骤2:将所述数据集在PSO-BP神经网络下训练数据,并建立神经网络模型;所述PSO-BP神经网络为基于PSO优化的BP神经网络,将sigmoid激活函数进行改进,公式为:
Figure DEST_PATH_IMAGE002
其中,
Figure DEST_PATH_IMAGE004
为激活函数的输入值;
步骤3:在服务器入口部署配置软件,把待判断的数据输入决策树和神经网络模型,判断链接是否为爬虫链接;所述配置软件使用Flink大数据处理框架实时处理请求链接,把请求链接数据进行处理;所述Flink大数据处理框架把所有处理好的数据通过决策树验证关键参数是否为模拟生成的假参数,快速过滤出爬虫链接;
所述决策树的验证方法包括以下子步骤:
步骤31:设定正常用户访问的最高频率作为验证阈值;
步骤32:检查访问频率,把超过所述验证阈值的用户的链接视为爬虫链接;
步骤33:检查请求链接的请求参数是否全并检查所述请求参数是否符合网站相应加密规则;
步骤34:对于请求参数不全或请求参数完全不符合网站相应加密规则的链接归为爬虫链接,对于请求参数部分相符网站相应加密规则的链接留给神经网络进行处理;
步骤4:对所述爬虫链接进行处理。
2.如权利要求1所述的基于机器学习的恶意网络爬虫监测和处理方法,其特征在于,所述最原始数据包括访问IP访问时携带的参数、访问频率和该访问IP访问的平台的所有不同链接中至少一种。
3.如权利要求2所述的基于机器学习的恶意网络爬虫监测和处理方法,其特征在于,所述步骤1包括把所述最原始数据中的IP、能够定位到具体用户的数据、校验参数、访问链接和访问时间分别作为关键字,按照一定格式保存为一条数据。
4.如权利要求3所述的基于机器学习的恶意网络爬虫监测和处理方法,其特征在于,保存为一定格式的一条数据的处理在hadoop Yarn框架下进行,把处理好的数据按照2:1的比例分为训练集和测试集。
5.如权利要求4所述的基于机器学习的恶意网络爬虫监测和处理方法,其特征在于,训练所述神经网络模型时,输入值为hadoop Yarn框架下处理好的数据里的参数。
6.如权利要求5所述的基于机器学习的恶意网络爬虫监测和处理方法,其特征在于,所述爬虫链接的处理方法包括:
1)对于每分钟爬取次数没有超过设定阈值的爬虫链接采用以下两种方法中至少一种:(1)增加服务器响应时间,(2)返回假数据或返回固定数据或不返回数据;
2)对于每分钟爬取次数超过设定阈值的爬虫链接采用封ip地址、设计防火墙和封跑爬虫程序的主机中至少一种操作。
7.一种基于机器学习的恶意网络爬虫监测和处理系统,包括用于获取最原始数据的数据获取模块,其特征在于,还包括以下模块:
数据处理模块:用于处理所述最原始数据,并生成数据集;
模型建立模块:用于将所述数据集在PSO-BP神经网络下训练数据,并建立神经网络模型;所述PSO-BP神经网络为基于PSO优化的BP神经网络,将sigmoid激活参数进行改进,公式为
Figure DEST_PATH_IMAGE005
,其中,
Figure 118893DEST_PATH_IMAGE004
为激活函数的输入值;
爬虫判断模块:用于在服务器入口部署配置软件,把待判断的数据输入决策树和神经网络模型,判断链接是否为爬虫链接;所述配置软件使用Flink大数据处理框架实时处理请求链接,把请求链接数据进行处理;所述Flink大数据处理框架把所有处理好的数据通过决策树验证关键参数是否为模拟生成的假参数,快速过滤出爬虫链接;
所述决策树的验证方法包括以下子步骤:
步骤31:设定正常用户访问的最高频率作为验证阈值;
步骤32:检查访问频率,把超过所述验证阈值的用户的链接视为爬虫链接;
步骤33:检查请求链接的请求参数是否全并检查所述请求参数是否符合网站相应加密规则;
步骤34:对于请求参数不全或请求参数完全不符合网站相应加密规则的链接归为爬虫链接,对于请求参数部分相符网站相应加密规则的链接留给神经网络进行处理;
爬虫处理模块:用于对所述爬虫链接进行处理;
所述系统通过如权利要求1所述的方法进行恶意网络爬虫监测和处理。
CN202010193784.XA 2020-03-19 2020-03-19 一种基于机器学习的恶意网络爬虫监测和处理方法及系统 Active CN111090802B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010193784.XA CN111090802B (zh) 2020-03-19 2020-03-19 一种基于机器学习的恶意网络爬虫监测和处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010193784.XA CN111090802B (zh) 2020-03-19 2020-03-19 一种基于机器学习的恶意网络爬虫监测和处理方法及系统

Publications (2)

Publication Number Publication Date
CN111090802A CN111090802A (zh) 2020-05-01
CN111090802B true CN111090802B (zh) 2020-07-24

Family

ID=70400603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010193784.XA Active CN111090802B (zh) 2020-03-19 2020-03-19 一种基于机器学习的恶意网络爬虫监测和处理方法及系统

Country Status (1)

Country Link
CN (1) CN111090802B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112765437B (zh) * 2021-01-22 2022-05-17 浙江工业大学 一种动态检测失效流量的网络爬虫方法
CN114401104B (zh) * 2021-11-30 2024-04-30 中国建设银行股份有限公司 网络爬虫处置方法、装置、服务器及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0657053B1 (de) * 1992-08-28 1996-06-19 Siemens Aktiengesellschaft Verfahren zum entwurf eines neuronalen netzes und danach erhaltenes neuronales netz
CN107122825A (zh) * 2017-03-09 2017-09-01 华南理工大学 一种神经网络模型的激活函数生成方法
CN109818949A (zh) * 2019-01-17 2019-05-28 济南浪潮高新科技投资发展有限公司 一种基于神经网络的反爬虫方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0657053B1 (de) * 1992-08-28 1996-06-19 Siemens Aktiengesellschaft Verfahren zum entwurf eines neuronalen netzes und danach erhaltenes neuronales netz
CN107122825A (zh) * 2017-03-09 2017-09-01 华南理工大学 一种神经网络模型的激活函数生成方法
CN109818949A (zh) * 2019-01-17 2019-05-28 济南浪潮高新科技投资发展有限公司 一种基于神经网络的反爬虫方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
使用BP算法时应考虑的若干问题;郭海涛 等;《佳木斯大学学报(自然科学版)》;20001231(第04期);第2.6节 *

Also Published As

Publication number Publication date
CN111090802A (zh) 2020-05-01

Similar Documents

Publication Publication Date Title
US11727121B2 (en) Method and system for neural network deployment in software security vulnerability testing
CN107659543B (zh) 面向云平台apt攻击的防护方法
Lee et al. A novel method for SQL injection attack detection based on removing SQL query attribute values
US20160065600A1 (en) Apparatus and method for automatically detecting malicious link
CN111090802B (zh) 一种基于机器学习的恶意网络爬虫监测和处理方法及系统
Luo et al. A CNN-based Approach to the Detection of SQL Injection Attacks
CN106961419A (zh) WebShell检测方法、装置及系统
CN109274637A (zh) 确定分布式拒绝服务攻击的系统和方法
CN108156131A (zh) Webshell检测方法、电子设备和计算机存储介质
CN117879970B (zh) 一种网络安全防护方法及系统
CN108090091A (zh) 网页爬取方法和装置
Ibarra-Fiallos et al. Effective filter for common injection attacks in online web applications
Morozova et al. Methods and technologies for ensuring cybersecurity of industrial and web-oriented systems and networks
CN109660532A (zh) 一种分布式网络数据采集方法及其采集系统
CN107276986B (zh) 一种通过机器学习保护网站的方法、装置和系统
Lemaire et al. Extracting vulnerabilities in industrial control systems using a knowledge-based system
Garn et al. Combinatorially xssing web application firewalls
CN110581841A (zh) 一种后端反爬虫方法
CN117574371B (zh) 面向边缘计算平台熵敏感调用特征的恶意代码检测系统
Hekmati et al. Neural networks for DDOS attack detection using an enhanced urban IoT dataset
Hu et al. Web application vulnerability detection method based on machine learning
CN114968750A (zh) 基于人工智能的测试用例生成方法、装置、设备和介质
CN115242539B (zh) 基于特征融合的电网信息系统网络攻击检测方法及装置
CN116089920A (zh) 一种敏感字段预警方法、系统、计算机设备及介质
Saxena et al. Detection of web attacks using machine learning based URL classification techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant