CN111859069B - 一种网络恶意爬虫识别方法、系统、终端及存储介质 - Google Patents

一种网络恶意爬虫识别方法、系统、终端及存储介质 Download PDF

Info

Publication number
CN111859069B
CN111859069B CN202010678053.4A CN202010678053A CN111859069B CN 111859069 B CN111859069 B CN 111859069B CN 202010678053 A CN202010678053 A CN 202010678053A CN 111859069 B CN111859069 B CN 111859069B
Authority
CN
China
Prior art keywords
access
malicious
source address
bill
crawler
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010678053.4A
Other languages
English (en)
Other versions
CN111859069A (zh
Inventor
王广清
方铁城
申彦龙
刘颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gas Group Co Ltd
Original Assignee
Beijing Gas Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gas Group Co Ltd filed Critical Beijing Gas Group Co Ltd
Priority to CN202010678053.4A priority Critical patent/CN111859069B/zh
Publication of CN111859069A publication Critical patent/CN111859069A/zh
Application granted granted Critical
Publication of CN111859069B publication Critical patent/CN111859069B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请所提供的一种网络恶意爬虫识别方法、系统、终端及存储介质,所述方法包括:获取待检测网络地址及待检测网络地址对应的用户访问信息;根据所述用户访问信息提取访问源地址及访问特征;以访问源地址作为分组进行类别聚合,提取预设访问时间段内的特定访问源地址的访问特征,并利用DBSCAN算法训练无监督聚类机器学习模型,进行异常爬取账单识别;通过人工判定方式对异常爬取账单进行恶意账单爬虫识别;获取标记的恶意账单爬虫的访问源地址及访问特征,并利用XGBoost算法训练有监督机器学习模型,进行恶意账单爬虫的访问源地址识别;从而实现相同行为的访问源地址会自动进行恶意爬虫识别。

Description

一种网络恶意爬虫识别方法、系统、终端及存储介质
技术领域
本申请涉及数据处理技术领域,尤其是涉及一种网络恶意爬虫识别方法、系统、终端及存储介质。
背景技术
网络爬虫是一种自动获取网页内容的程序,对于一个网站而言,恶意爬虫的大量请求会消耗服务器的性能,浪费很多资源,甚至会造成服务器宕机。因此,有必要保证用户对网站进行正常的访问,而避免大规模的恶意爬虫向网站发起访问。
现有的识别恶意爬虫的方法是通过解析网站的服务器记录日志,从日志中找出频繁访问该网站的网络地址,并通过人工判断的方式识别恶意爬虫后将该网络地址过滤掉,禁止该网络地址再次访问该网站。但是人工判断的方式进行恶意爬虫识别,样本数量巨大且耗费时间。
因此,亟需一种网络恶意爬虫识别方法、系统、终端及存储介质,以解决网络恶意爬虫进行识别时人工判断方式样本数量巨大且耗费时间的问题。
发明内容
针对现有技术的不足,本申请提供一种网络恶意爬虫识别方法、系统、终端及存储介质,解决了现有技术中网络恶意爬虫进行识别时人工判断方式样本数量巨大且耗费时间的问题。
为解决上述技术问题,第一方面,本申请提供一种网络恶意爬虫识别方法,包括:
获取待检测网络地址及待检测网络地址对应的用户访问信息;
根据所述用户访问信息提取访问源地址及访问特征;
以访问源地址作为分组进行类别聚合,提取预设访问时间段内的特定访问源地址的访问特征,并利用DBSCAN算法训练无监督聚类机器学习模型,进行异常爬取账单识别;
通过人工判定方式对异常爬取账单进行恶意账单爬虫识别;
获取标记的恶意账单爬虫的访问源地址及访问特征,并利用XGBoost算法训练有监督机器学习模型,进行恶意账单爬虫的访问源地址识别。
可选的,所述获取待检测网络地址及待检测网络地址对应的用户访问信息,包括:
获取待检测网络地址的访问日志和流量;
解析所述访问日志和流量,获取解析结果;以及
从所述解析结果中获取所述待检测网络地址对应的用户访问信息。
可选的,所述根据所述用户访问信息提取访问源地址及访问特征,包括:
根据用户访问信息提取访问用户的IP地址、账户、手机号码或唯一识别用户信息的标识;
根据用户访问信息提取访问用户的访问特征如访问时间、访问请求、访问Referer、访问User-agent、访问方法、返回状态、请求主机名、访问速率、访问URL种类数、访问URL总数、访问总时间、访问UA种类数、访问Referrer种类数、访问Method种类数。
可选的,所述以访问源地址作为分组进行类别聚合,提取预设访问时间段内的特定访问源地址的访问特征,并利用DBSCAN算法训练无监督聚类机器学习模型,进行异常爬取账单识别,包括:
根据所述用户访问信息提取预设访问时间段内的特定访问源地址的访问特征,并以访问源地址作为分组进行类别聚合;
将所述以访问源地址作为分组进行类别聚合的预设访问时间段内的特定访问源地址的访问特征输入至预设无监督聚类机器学习模型;
利用DBSCAN算法训练无监督聚类机器学习模型,识别出异常爬取账单与正常爬取账单。
可选的,所述通过人工判定方式对异常爬取账单进行恶意账单爬虫识别,包括:
通过人工判定方式识别出异常爬取账单中的恶意爬取账单,并将恶意爬取账单进行恶意账单爬虫标记。
可选的,所述获取标记的恶意账单爬虫的访问源地址及访问特征,并利用XGBoost算法训练有监督机器学习模型,进行恶意账单爬虫的访问源地址识别,包括:
将恶意爬取账单与正常爬取账单的访问源地址及访问特征输入至预设有监督机器学习模型;
利用XGBoost算法训练有监督机器学习模型,识别出恶意账单爬虫的访问源地址。
第二方面,本申请还提供一种网络恶意爬虫识别系统,包括:
获取单元,配置用于获取待检测网络地址及待检测网络地址对应的用户访问信息;
特征提取单元,配置用于根据所述用户访问信息提取访问源地址及访问特征;
分组聚合单元,配置用于以访问源地址作为分组进行类别聚合,提取预设访问时间段内的特定访问源地址的访问特征,并利用DBSCAN算法训练无监督聚类机器学习模型,进行异常爬取账单识别;
标记单元,配置用于通过人工判定方式对异常爬取账单进行恶意账单爬虫识别;
识别单元,配置用于获取标记的恶意账单爬虫的访问源地址及访问特征,并利用XGBoost算法训练有监督机器学习模型,进行恶意账单爬虫的访问源地址识别。
可选的,所述获取单元具体用于:
获取待检测网络地址的访问日志和流量;
解析所述访问日志和流量,获取解析结果;以及
从所述解析结果中获取所述待检测网络地址对应的用户访问信息。
可选的,所述特征提取单元具体用于:
根据用户访问信息提取访问用户的IP地址、账户、手机号码或唯一识别用户信息的标识;
根据用户访问信息提取访问用户的访问特征如访问时间、访问请求、访问Referer、访问User-agent、访问方法、返回状态、请求主机名、访问速率、访问URL种类数、访问URL总数、访问总时间、访问UA种类数、访问Referrer种类数、访问Method种类数。
可选的,所述分组聚合单元具体用于:
根据所述用户访问信息提取预设访问时间段内的特定访问源地址的访问特征,并以访问源地址作为分组进行类别聚合;
将所述以访问源地址作为分组进行类别聚合的预设访问时间段内的特定访问源地址的访问特征输入至预设无监督聚类机器学习模型;
利用DBSCAN算法训练无监督聚类机器学习模型,识别出异常爬取账单与正常爬取账单。
可选的,所述标记单元具体用于:
通过人工判定方式识别出异常爬取账单中的恶意爬取账单,并将恶意爬取账单进行恶意账单爬虫标记。
可选的,所述识别单元具体用于:
将恶意爬取账单与正常爬取账单的访问源地址及访问特征输入至预设有监督机器学习模型;
利用XGBoost算法训练有监督机器学习模型,识别出恶意账单爬虫的访问源地址。
第三方面,本申请提供一种终端,包括:
处理器、存储器,其中,
该存储器用于存储计算机程序,
该处理器用于从存储器中调用并运行该计算机程序,使得终端执行上述的终端的方法。
第四方面,本申请提供了一种计算机存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
与现有技术相比,本申请具有如下有益效果:
本申请通过无监督聚类算法将有相同行为的访问源地址访问信息聚成同一类进行恶意爬虫识别,对恶意爬虫访问源地址进行标记之后,通过标记后的原地址数据库进行有监督机器学习,从而实现相同行为的访问源地址会自动进行恶意爬虫识别,大大降低了样本标记数据量,减少了标记时间。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例所提供的一种网络恶意爬虫识别方法的流程图;
图2为本申请实施例所提供的一种批量爬取账单信息中异常爬取账单信息识别示意图;
图3为本申请实施例所提供的一种批量爬取账单信息以访问源地址作为分组进行类别聚合的示意图;
图4为本申请另一实施例所提供的一种网络恶意爬虫识别系统的结构示意图;
图5为本申请实施例所提供的一种终端系统的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参考图1,图1为本申请实施例所提供的一种网络恶意爬虫识别方法的流程图,该方法100包括:
S101:获取待检测网络地址及待检测网络地址对应的用户访问信息;
S102:根据所述用户访问信息提取访问源地址及访问特征;
S103:以访问源地址作为分组进行类别聚合,提取预设访问时间段内的特定访问源地址的访问特征,并利用DBSCAN算法训练无监督聚类机器学习模型,进行异常爬取账单识别;
S104:通过人工判定方式对异常爬取账单进行恶意账单爬虫识别;
S105:获取标记的恶意账单爬虫的访问源地址及访问特征,并利用XGBoost算法训练有监督机器学习模型,进行恶意账单爬虫的访问源地址识别。
基于上述实施例,作为可选的实施例,所述S101获取待检测网络地址及待检测网络地址对应的用户访问信息,包括:
获取待检测网络地址的访问日志和流量;
解析所述访问日志和流量,获取解析结果;以及
从所述解析结果中获取所述待检测网络地址对应的用户访问信息。
基于上述实施例,作为可选的实施例,所述S102根据所述用户访问信息提取访问源地址及访问特征,包括:
根据用户访问信息提取访问用户的IP地址、账户、手机号码或唯一识别用户信息的标识;
根据用户访问信息提取访问用户的访问特征如访问时间、访问请求、访问Referer、访问User-agent、访问方法、返回状态、请求主机名、访问速率、访问URL种类数、访问URL总数、访问总时间、访问UA种类数、访问Referrer种类数、访问Method种类数。
基于上述实施例,作为可选的实施例,所述S103以访问源地址作为分组进行类别聚合,提取预设访问时间段内的特定访问源地址的访问特征,并利用DBSCAN算法训练无监督聚类机器学习模型,进行异常爬取账单识别,包括:
根据所述用户访问信息提取预设访问时间段内的特定访问源地址的访问特征,并以访问源地址作为分组进行类别聚合;
将所述以访问源地址作为分组进行类别聚合的预设访问时间段内的特定访问源地址的访问特征输入至预设无监督聚类机器学习模型;
利用DBSCAN算法训练无监督聚类机器学习模型,识别出异常爬取账单与正常爬取账单。
具体的,如图2、3所示,以IP:114.83.114.70为例,特征如下表,首先从数据源中提取多个字段,包括访问时间、访问源地址、访问请求、访问Referer、访问User-agent、访问方法、返回状态、请求主机名等;以访问源地址作为分组进行聚合,提取预设访问时间段内的特定访问源地址的访问特征,包括:访问速率、访问URL种类数、访问URL总数、访问总时间、访问UA种类数、访问Referrer种类数、访问Method种类数等;利用无监督DBSCAN聚类算法进行学习,识别出异常的行为;人工结合业务场景(比如相关URL是做什么的),识别出该异常行为是在批量爬取账单信息,每隔一段时间(如每天、每周)反复运行此无监督学习算法和过程,可发现更多未知攻击、异常。
Figure BDA0002584752180000071
基于上述实施例,作为可选的实施例,所述S104通过人工判定方式对异常爬取账单进行恶意账单爬虫识别,包括:
通过人工判定方式识别出异常爬取账单中的恶意爬取账单,并将恶意爬取账单进行恶意账单爬虫标记。
基于上述实施例,作为可选的实施例,所述S105获取标记的恶意账单爬虫的访问源地址及访问特征,并利用XGBoost算法训练有监督机器学习模型,进行恶意账单爬虫的访问源地址识别,包括:
将恶意爬取账单与正常爬取账单的访问源地址及访问特征输入至预设有监督机器学习模型;
利用XGBoost算法训练有监督机器学习模型,识别出恶意账单爬虫的访问源地址。
请参考图4,图4为本申请实施例所提供的一种网络恶意爬虫识别系统的结构示意图,该系统400,包括:
获取单元401,配置用于获取待检测网络地址及待检测网络地址对应的用户访问信息;
特征提取单元402,配置用于根据所述用户访问信息提取访问源地址及访问特征;
分组聚合单元403,配置用于以访问源地址作为分组进行类别聚合,提取预设访问时间段内的特定访问源地址的访问特征,并利用DBSCAN算法训练无监督聚类机器学习模型,进行异常爬取账单识别;
标记单元404,配置用于通过人工判定方式对异常爬取账单进行恶意账单爬虫识别;
识别单元405,获取标记的恶意账单爬虫的访问源地址及访问特征,并利用XGBoost算法训练有监督机器学习模型,进行恶意账单爬虫的访问源地址识别。
基于上述实施例,作为可选的实施例,所述获取单元401具体用于:
获取待检测网络地址的访问日志和流量;
解析所述访问日志和流量,获取解析结果;以及
从所述解析结果中获取所述待检测网络地址对应的用户访问信息。
基于上述实施例,作为可选的实施例,所述特征提取单元402具体用于:
根据用户访问信息提取访问用户的IP地址、账户、手机号码或唯一识别用户信息的标识;
根据用户访问信息提取访问用户的访问特征如访问时间、访问请求、访问Referer、访问User-agent、访问方法、返回状态、请求主机名、访问速率、访问URL种类数、访问URL总数、访问总时间、访问UA种类数、访问Referrer种类数、访问Method种类数。
基于上述实施例,作为可选的实施例,所述分组聚合单元403具体用于:
根据所述用户访问信息提取预设访问时间段内的特定访问源地址的访问特征,并以访问源地址作为分组进行类别聚合;
将所述以访问源地址作为分组进行类别聚合的预设访问时间段内的特定访问源地址的访问特征输入至预设无监督聚类机器学习模型;
利用DBSCAN算法训练无监督聚类机器学习模型,识别出异常爬取账单与正常爬取账单。
基于上述实施例,作为可选的实施例,所述标记单元404具体用于:
通过人工判定方式识别出异常爬取账单中的恶意爬取账单,并将恶意爬取账单进行恶意账单爬虫标记。
基于上述实施例,作为可选的实施例,所述识别单元205具体用于:
将恶意爬取账单与正常爬取账单的访问源地址及访问特征输入至预设有监督机器学习模型;
利用XGBoost算法训练有监督机器学习模型,识别出恶意账单爬虫的访问源地址。
请参考图5,图5为本申请实施例所提供的一种终端系统300的结构示意图,该终端系统500可以用于执行本发明实施例提供的网络恶意爬虫识别方法。
其中,该终端系统500可以包括:处理器501、存储器502及通信单元503。这些组件通过一条或多条总线进行通信,本领域技术人员可以理解,图中示出的服务器的结构并不构成对本发明的限定,它既可以是总线形结构,也可以是星型结构,还可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
其中,该存储器502可以用于存储处理器501的执行指令,存储器502可以由任何类型的易失性或非易失性存储终端或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。当存储器502中的执行指令由处理器501执行时,使得终端系统500能够执行以下上述方法实施例中的部分或全部步骤。
处理器501为存储终端的控制中心,利用各种接口和线路连接整个电子终端的各个部分,通过运行或执行存储在存储器502内的软件程序和/或模块,以及调用存储在存储器内的数据,以执行电子终端的各种功能和/或处理数据。所述处理器可以由集成电路(Integrated Circuit,简称IC)组成,例如可以由单颗封装的IC所组成,也可以由连接多颗相同功能或不同功能的封装IC而组成。举例来说,处理器501可以仅包括中央处理器(Central Processing Unit,简称CPU)。在本发明实施方式中,CPU可以是单运算核心,也可以包括多运算核心。
通信单元503,用于建立通信信道,从而使所述存储终端可以与其它终端进行通信。接收其他终端发送的用户数据或者向其他终端发送用户数据。
本申请还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时可包括本发明提供的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-only memory,简称:ROM)或随机存储记忆体(英文:random access memory,简称:RAM)等。
本申请通过无监督聚类算法将有相同行为的访问源地址访问信息聚成同一类进行恶意爬虫识别,对恶意爬虫访问源地址进行标记之后,通过标记后的原地址数据库进行有监督机器学习,从而实现相同行为的访问源地址会自动进行恶意爬虫识别,大大降低了样本标记数据量,减少了标记时间。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言,由于其与实施例提供的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (8)

1.一种网络恶意爬虫识别方法,其特征在于,包括:
获取待检测网络地址及待检测网络地址对应的用户访问信息;
根据所述用户访问信息提取访问源地址及访问特征;
根据所述用户访问信息提取预设访问时间段内的特定访问源地址的访问特征,并以访问源地址作为分组进行类别聚合;
将所述以访问源地址作为分组进行类别聚合的预设访问时间段内的特定访问源地址的访问特征输入至预设无监督聚类机器学习模型;
利用DBSCAN算法训练无监督聚类机器学习模型,识别出异常爬取账单与正常爬取账单;
通过人工判定方式对异常爬取账单进行恶意账单爬虫识别;
获取标记的恶意账单爬虫的访问源地址及访问特征,并利用XGBoost算法训练有监督机器学习模型,进行恶意账单爬虫的访问源地址识别。
2.根据权利要求1所述的网络恶意爬虫识别方法,其特征在于,所述获取待检测网络地址及待检测网络地址对应的用户访问信息,包括:
获取待检测网络地址的访问日志和流量;
解析所述访问日志和流量,获取解析结果;以及
从所述解析结果中获取所述待检测网络地址对应的用户访问信息。
3.根据权利要求1所述的网络恶意爬虫识别方法,其特征在于,所述根据所述用户访问信息提取访问源地址及访问特征,包括:
根据用户访问信息提取访问用户的IP地址、账户、手机号码或唯一识别用户信息的标识;
根据用户访问信息提取访问用户的访问特征如访问时间、访问请求、访问Referer、访问User-agent、访问方法、返回状态、请求主机名、访问速率、访问URL种类数、访问URL总数、访问总时间、访问UA种类数、访问Referrer种类数、访问Method种类数。
4.根据权利要求1所述的网络恶意爬虫识别方法,其特征在于,所述通过人工判定方式对异常爬取账单进行恶意账单爬虫识别,包括:
通过人工判定方式识别出异常爬取账单中的恶意爬取账单,并将恶意爬取账单进行恶意账单爬虫标记。
5.根据权利要求1所述的网络恶意爬虫识别方法,其特征在于,所述获取标记的恶意账单爬虫的访问源地址及访问特征,并利用XGBoost算法训练有监督机器学习模型,进行恶意账单爬虫的访问源地址识别,包括:
将恶意爬取账单与正常爬取账单的访问源地址及访问特征输入至预设有监督机器学习模型;
利用XGBoost算法训练有监督机器学习模型,识别出恶意账单爬虫的访问源地址。
6.一种网络恶意爬虫识别系统,其特征在于,包括:获取单元,配置用于获取待检测网络地址及待检测网络地址对应的用户访问信息;
特征提取单元,配置用于根据所述用户访问信息提取访问源地址及访问特征;
分组聚合单元,配置用于根据所述用户访问信息提取预设访问时间段内的特定访问源地址的访问特征,并以访问源地址作为分组进行类别聚合;将所述以访问源地址作为分组进行类别聚合的预设访问时间段内的特定访问源地址的访问特征输入至预设无监督聚类机器学习模型;利用DBSCAN算法训练无监督聚类机器学习模型,识别出异常爬取账单与正常爬取账单;
标记单元,配置用于通过人工判定方式对异常爬取账单进行恶意账单爬虫识别;
识别单元,配置用于获取标记的恶意账单爬虫的访问源地址及访问特征,并利用XGBoost算法训练有监督机器学习模型,进行恶意账单爬虫的访问源地址识别。
7.一种终端,其特征在于,包括:
处理器;
用于存储处理器的执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-5中任一项所述的方法。
8.一种存储有计算机程序的计算机可读存储介质,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一项所述的方法。
CN202010678053.4A 2020-07-15 2020-07-15 一种网络恶意爬虫识别方法、系统、终端及存储介质 Active CN111859069B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010678053.4A CN111859069B (zh) 2020-07-15 2020-07-15 一种网络恶意爬虫识别方法、系统、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010678053.4A CN111859069B (zh) 2020-07-15 2020-07-15 一种网络恶意爬虫识别方法、系统、终端及存储介质

Publications (2)

Publication Number Publication Date
CN111859069A CN111859069A (zh) 2020-10-30
CN111859069B true CN111859069B (zh) 2021-10-15

Family

ID=72983440

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010678053.4A Active CN111859069B (zh) 2020-07-15 2020-07-15 一种网络恶意爬虫识别方法、系统、终端及存储介质

Country Status (1)

Country Link
CN (1) CN111859069B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115134102A (zh) * 2021-03-24 2022-09-30 北京字节跳动网络技术有限公司 异常访问检测方法、装置、存储介质及电子设备
CN114978674B (zh) * 2022-05-18 2023-12-05 中国电信股份有限公司 一种爬虫识别增强的方法及装置、存储介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582855A (zh) * 2019-01-17 2019-04-05 北京三快在线科技有限公司 增强反爬系统识别性能的方法、装置和存储介质
US10440187B1 (en) * 2017-01-16 2019-10-08 Directly Software, Inc. Bootstrapped predicative routing in CRM
CN110717551A (zh) * 2019-10-18 2020-01-21 中国电子信息产业集团有限公司第六研究所 流量识别模型的训练方法、装置及电子设备
CN111143654A (zh) * 2019-12-25 2020-05-12 支付宝(杭州)信息技术有限公司 辅助识别爬虫的、爬虫识别方法、装置及电子设备
CN111338897A (zh) * 2020-02-24 2020-06-26 京东数字科技控股有限公司 应用主机中异常节点的识别方法、监测设备和电子设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391979B (zh) * 2014-12-05 2017-12-19 北京国双科技有限公司 网络恶意爬虫识别方法及装置
US10158657B1 (en) * 2015-08-06 2018-12-18 Microsoft Technology Licensing Llc Rating IP addresses based on interactions between users and an online service
US10164991B2 (en) * 2016-03-25 2018-12-25 Cisco Technology, Inc. Hierarchical models using self organizing learning topologies
CN106790062B (zh) * 2016-12-20 2020-05-08 国家电网公司 一种基于反向dns查询属性聚合的异常检测方法及系统
US10706114B2 (en) * 2017-11-17 2020-07-07 Facebook, Inc. Systems and methods for using link graphs to demote links to low-quality webpages
CN108200087B (zh) * 2018-02-01 2020-05-12 平安科技(深圳)有限公司 web入侵检测方法、装置、计算机设备和存储介质
CN110493235A (zh) * 2019-08-23 2019-11-22 四川长虹电器股份有限公司 一种基于网络流量特征的移动终端恶意软件同步检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10440187B1 (en) * 2017-01-16 2019-10-08 Directly Software, Inc. Bootstrapped predicative routing in CRM
CN109582855A (zh) * 2019-01-17 2019-04-05 北京三快在线科技有限公司 增强反爬系统识别性能的方法、装置和存储介质
CN110717551A (zh) * 2019-10-18 2020-01-21 中国电子信息产业集团有限公司第六研究所 流量识别模型的训练方法、装置及电子设备
CN111143654A (zh) * 2019-12-25 2020-05-12 支付宝(杭州)信息技术有限公司 辅助识别爬虫的、爬虫识别方法、装置及电子设备
CN111338897A (zh) * 2020-02-24 2020-06-26 京东数字科技控股有限公司 应用主机中异常节点的识别方法、监测设备和电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于机器学习的异常流量检测系统的设计与实现;何珊珊;《中国优秀硕士学位论文全文数据库信息科技辑》;20180315(第3期);第I140-181页 *

Also Published As

Publication number Publication date
CN111859069A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
US9954886B2 (en) Method and apparatus for detecting website security
CN113489713B (zh) 网络攻击的检测方法、装置、设备及存储介质
CN108427731B (zh) 页面代码的处理方法、装置、终端设备及介质
CN111859069B (zh) 一种网络恶意爬虫识别方法、系统、终端及存储介质
CN110609937A (zh) 一种爬虫识别方法及装置
CN114417197A (zh) 一种访问记录处理方法、装置及存储介质
CN111404937B (zh) 一种服务器漏洞的检测方法和装置
CN113412607B (zh) 内容推送方法、装置、移动终端及存储介质
CN108710670A (zh) 一种日志分析方法、装置、电子设备及可读存储介质
WO2019071966A1 (zh) 基于爬虫数据的用户行为分析方法、应用服务器及可读存储介质
CN107239701A (zh) 识别恶意网站的方法及装置
CN109727027A (zh) 账户识别方法、装置、设备及存储介质
CN111355628B (zh) 一种模型训练方法、业务识别方法、装置和电子装置
CN110191097B (zh) 登录页面安全性的检测方法、系统、设备及存储介质
CN112347457A (zh) 异常账户检测方法、装置、计算机设备和存储介质
CN111125704B (zh) 一种网页挂马识别方法及系统
CN108287831B (zh) 一种url分类方法和系统、数据处理方法和系统
CN117254983A (zh) 涉诈网址检测方法、装置、设备及存储介质
CN111427774A (zh) 用于应用程序测试实例的请求参数修改方法及系统
CN104104660A (zh) 获取用户数据的方法及系统
CN115292571A (zh) 一种App数据采集方法及系统
CN109995605A (zh) 一种流量识别方法及装置、以及计算机可读存储介质
CN113660663A (zh) 物联网设备识别方法、装置、计算机设备、存储介质
CN113626387A (zh) 一种任务数据的导出方法、装置、电子设备及存储介质
CN111131351A (zh) 一种物联网设备型号的确认方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant