CN111859069B

CN111859069B - 一种网络恶意爬虫识别方法、系统、终端及存储介质

Info

Publication number: CN111859069B
Application number: CN202010678053.4A
Authority: CN
Inventors: 王广清; 方铁城; 申彦龙; 刘颖
Original assignee: Beijing Gas Group Co Ltd
Current assignee: Beijing Gas Group Co Ltd
Priority date: 2020-07-15
Filing date: 2020-07-15
Publication date: 2021-10-15
Anticipated expiration: 2040-07-15
Also published as: CN111859069A

Abstract

本申请所提供的一种网络恶意爬虫识别方法、系统、终端及存储介质，所述方法包括：获取待检测网络地址及待检测网络地址对应的用户访问信息；根据所述用户访问信息提取访问源地址及访问特征；以访问源地址作为分组进行类别聚合，提取预设访问时间段内的特定访问源地址的访问特征，并利用DBSCAN算法训练无监督聚类机器学习模型，进行异常爬取账单识别；通过人工判定方式对异常爬取账单进行恶意账单爬虫识别；获取标记的恶意账单爬虫的访问源地址及访问特征，并利用XGBoost算法训练有监督机器学习模型，进行恶意账单爬虫的访问源地址识别；从而实现相同行为的访问源地址会自动进行恶意爬虫识别。

Description

一种网络恶意爬虫识别方法、系统、终端及存储介质

技术领域

本申请涉及数据处理技术领域，尤其是涉及一种网络恶意爬虫识别方法、系统、终端及存储介质。

背景技术

网络爬虫是一种自动获取网页内容的程序，对于一个网站而言，恶意爬虫的大量请求会消耗服务器的性能，浪费很多资源，甚至会造成服务器宕机。因此，有必要保证用户对网站进行正常的访问，而避免大规模的恶意爬虫向网站发起访问。

现有的识别恶意爬虫的方法是通过解析网站的服务器记录日志，从日志中找出频繁访问该网站的网络地址，并通过人工判断的方式识别恶意爬虫后将该网络地址过滤掉，禁止该网络地址再次访问该网站。但是人工判断的方式进行恶意爬虫识别，样本数量巨大且耗费时间。

因此，亟需一种网络恶意爬虫识别方法、系统、终端及存储介质，以解决网络恶意爬虫进行识别时人工判断方式样本数量巨大且耗费时间的问题。

发明内容

针对现有技术的不足，本申请提供一种网络恶意爬虫识别方法、系统、终端及存储介质，解决了现有技术中网络恶意爬虫进行识别时人工判断方式样本数量巨大且耗费时间的问题。

为解决上述技术问题，第一方面，本申请提供一种网络恶意爬虫识别方法，包括：

获取待检测网络地址及待检测网络地址对应的用户访问信息；

根据所述用户访问信息提取访问源地址及访问特征；

以访问源地址作为分组进行类别聚合，提取预设访问时间段内的特定访问源地址的访问特征，并利用DBSCAN算法训练无监督聚类机器学习模型，进行异常爬取账单识别；

通过人工判定方式对异常爬取账单进行恶意账单爬虫识别；

获取标记的恶意账单爬虫的访问源地址及访问特征，并利用XGBoost算法训练有监督机器学习模型，进行恶意账单爬虫的访问源地址识别。

可选的，所述获取待检测网络地址及待检测网络地址对应的用户访问信息，包括：

获取待检测网络地址的访问日志和流量；

解析所述访问日志和流量，获取解析结果；以及

从所述解析结果中获取所述待检测网络地址对应的用户访问信息。

可选的，所述根据所述用户访问信息提取访问源地址及访问特征，包括：

根据用户访问信息提取访问用户的IP地址、账户、手机号码或唯一识别用户信息的标识；

根据用户访问信息提取访问用户的访问特征如访问时间、访问请求、访问Referer、访问User-agent、访问方法、返回状态、请求主机名、访问速率、访问URL种类数、访问URL总数、访问总时间、访问UA种类数、访问Referrer种类数、访问Method种类数。

可选的，所述以访问源地址作为分组进行类别聚合，提取预设访问时间段内的特定访问源地址的访问特征，并利用DBSCAN算法训练无监督聚类机器学习模型，进行异常爬取账单识别，包括：

根据所述用户访问信息提取预设访问时间段内的特定访问源地址的访问特征，并以访问源地址作为分组进行类别聚合；

将所述以访问源地址作为分组进行类别聚合的预设访问时间段内的特定访问源地址的访问特征输入至预设无监督聚类机器学习模型；

利用DBSCAN算法训练无监督聚类机器学习模型，识别出异常爬取账单与正常爬取账单。

可选的，所述通过人工判定方式对异常爬取账单进行恶意账单爬虫识别，包括：

通过人工判定方式识别出异常爬取账单中的恶意爬取账单，并将恶意爬取账单进行恶意账单爬虫标记。

可选的，所述获取标记的恶意账单爬虫的访问源地址及访问特征，并利用XGBoost算法训练有监督机器学习模型，进行恶意账单爬虫的访问源地址识别，包括：

将恶意爬取账单与正常爬取账单的访问源地址及访问特征输入至预设有监督机器学习模型；

利用XGBoost算法训练有监督机器学习模型，识别出恶意账单爬虫的访问源地址。

第二方面，本申请还提供一种网络恶意爬虫识别系统，包括：

获取单元，配置用于获取待检测网络地址及待检测网络地址对应的用户访问信息；

特征提取单元，配置用于根据所述用户访问信息提取访问源地址及访问特征；

分组聚合单元，配置用于以访问源地址作为分组进行类别聚合，提取预设访问时间段内的特定访问源地址的访问特征，并利用DBSCAN算法训练无监督聚类机器学习模型，进行异常爬取账单识别；

标记单元，配置用于通过人工判定方式对异常爬取账单进行恶意账单爬虫识别；

识别单元，配置用于获取标记的恶意账单爬虫的访问源地址及访问特征，并利用XGBoost算法训练有监督机器学习模型，进行恶意账单爬虫的访问源地址识别。

可选的，所述获取单元具体用于：

获取待检测网络地址的访问日志和流量；

解析所述访问日志和流量，获取解析结果；以及

可选的，所述特征提取单元具体用于：

可选的，所述分组聚合单元具体用于：

可选的，所述标记单元具体用于：

可选的，所述识别单元具体用于：

第三方面，本申请提供一种终端，包括：

处理器、存储器，其中，

该存储器用于存储计算机程序，

该处理器用于从存储器中调用并运行该计算机程序，使得终端执行上述的终端的方法。

第四方面，本申请提供了一种计算机存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

与现有技术相比，本申请具有如下有益效果：

本申请通过无监督聚类算法将有相同行为的访问源地址访问信息聚成同一类进行恶意爬虫识别，对恶意爬虫访问源地址进行标记之后，通过标记后的原地址数据库进行有监督机器学习，从而实现相同行为的访问源地址会自动进行恶意爬虫识别，大大降低了样本标记数据量，减少了标记时间。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种网络恶意爬虫识别方法的流程图；

图2为本申请实施例所提供的一种批量爬取账单信息中异常爬取账单信息识别示意图；

图3为本申请实施例所提供的一种批量爬取账单信息以访问源地址作为分组进行类别聚合的示意图；

图4为本申请另一实施例所提供的一种网络恶意爬虫识别系统的结构示意图；

图5为本申请实施例所提供的一种终端系统的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参考图1，图1为本申请实施例所提供的一种网络恶意爬虫识别方法的流程图，该方法100包括：

S101：获取待检测网络地址及待检测网络地址对应的用户访问信息；

S102：根据所述用户访问信息提取访问源地址及访问特征；

S103：以访问源地址作为分组进行类别聚合，提取预设访问时间段内的特定访问源地址的访问特征，并利用DBSCAN算法训练无监督聚类机器学习模型，进行异常爬取账单识别；

S104：通过人工判定方式对异常爬取账单进行恶意账单爬虫识别；

S105：获取标记的恶意账单爬虫的访问源地址及访问特征，并利用XGBoost算法训练有监督机器学习模型，进行恶意账单爬虫的访问源地址识别。

基于上述实施例，作为可选的实施例，所述S101获取待检测网络地址及待检测网络地址对应的用户访问信息，包括：

获取待检测网络地址的访问日志和流量；

解析所述访问日志和流量，获取解析结果；以及

基于上述实施例，作为可选的实施例，所述S102根据所述用户访问信息提取访问源地址及访问特征，包括：

基于上述实施例，作为可选的实施例，所述S103以访问源地址作为分组进行类别聚合，提取预设访问时间段内的特定访问源地址的访问特征，并利用DBSCAN算法训练无监督聚类机器学习模型，进行异常爬取账单识别，包括：

具体的，如图2、3所示，以IP:114.83.114.70为例，特征如下表，首先从数据源中提取多个字段，包括访问时间、访问源地址、访问请求、访问Referer、访问User-agent、访问方法、返回状态、请求主机名等；以访问源地址作为分组进行聚合，提取预设访问时间段内的特定访问源地址的访问特征，包括：访问速率、访问URL种类数、访问URL总数、访问总时间、访问UA种类数、访问Referrer种类数、访问Method种类数等；利用无监督DBSCAN聚类算法进行学习，识别出异常的行为；人工结合业务场景(比如相关URL是做什么的)，识别出该异常行为是在批量爬取账单信息，每隔一段时间(如每天、每周)反复运行此无监督学习算法和过程，可发现更多未知攻击、异常。

基于上述实施例，作为可选的实施例，所述S104通过人工判定方式对异常爬取账单进行恶意账单爬虫识别，包括：

基于上述实施例，作为可选的实施例，所述S105获取标记的恶意账单爬虫的访问源地址及访问特征，并利用XGBoost算法训练有监督机器学习模型，进行恶意账单爬虫的访问源地址识别，包括：

请参考图4，图4为本申请实施例所提供的一种网络恶意爬虫识别系统的结构示意图，该系统400，包括：

获取单元401，配置用于获取待检测网络地址及待检测网络地址对应的用户访问信息；

特征提取单元402，配置用于根据所述用户访问信息提取访问源地址及访问特征；

分组聚合单元403，配置用于以访问源地址作为分组进行类别聚合，提取预设访问时间段内的特定访问源地址的访问特征，并利用DBSCAN算法训练无监督聚类机器学习模型，进行异常爬取账单识别；

标记单元404，配置用于通过人工判定方式对异常爬取账单进行恶意账单爬虫识别；

识别单元405，获取标记的恶意账单爬虫的访问源地址及访问特征，并利用XGBoost算法训练有监督机器学习模型，进行恶意账单爬虫的访问源地址识别。

基于上述实施例，作为可选的实施例，所述获取单元401具体用于：

获取待检测网络地址的访问日志和流量；

解析所述访问日志和流量，获取解析结果；以及

基于上述实施例，作为可选的实施例，所述特征提取单元402具体用于：

基于上述实施例，作为可选的实施例，所述分组聚合单元403具体用于：

基于上述实施例，作为可选的实施例，所述标记单元404具体用于：

基于上述实施例，作为可选的实施例，所述识别单元205具体用于：

请参考图5，图5为本申请实施例所提供的一种终端系统300的结构示意图，该终端系统500可以用于执行本发明实施例提供的网络恶意爬虫识别方法。

其中，该终端系统500可以包括：处理器501、存储器502及通信单元503。这些组件通过一条或多条总线进行通信，本领域技术人员可以理解，图中示出的服务器的结构并不构成对本发明的限定，它既可以是总线形结构，也可以是星型结构，还可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

其中，该存储器502可以用于存储处理器501的执行指令，存储器502可以由任何类型的易失性或非易失性存储终端或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。当存储器502中的执行指令由处理器501执行时，使得终端系统500能够执行以下上述方法实施例中的部分或全部步骤。

处理器501为存储终端的控制中心，利用各种接口和线路连接整个电子终端的各个部分，通过运行或执行存储在存储器502内的软件程序和/或模块，以及调用存储在存储器内的数据，以执行电子终端的各种功能和/或处理数据。所述处理器可以由集成电路(Integrated Circuit，简称IC)组成，例如可以由单颗封装的IC所组成，也可以由连接多颗相同功能或不同功能的封装IC而组成。举例来说，处理器501可以仅包括中央处理器(Central Processing Unit，简称CPU)。在本发明实施方式中，CPU可以是单运算核心，也可以包括多运算核心。

通信单元503，用于建立通信信道，从而使所述存储终端可以与其它终端进行通信。接收其他终端发送的用户数据或者向其他终端发送用户数据。

本申请还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本发明提供的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文：read-only memory，简称：ROM)或随机存储记忆体(英文：random access memory，简称：RAM)等。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言，由于其与实施例提供的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种网络恶意爬虫识别方法，其特征在于，包括：

根据所述用户访问信息提取访问源地址及访问特征；

利用DBSCAN算法训练无监督聚类机器学习模型，识别出异常爬取账单与正常爬取账单；

通过人工判定方式对异常爬取账单进行恶意账单爬虫识别；

2.根据权利要求1所述的网络恶意爬虫识别方法，其特征在于，所述获取待检测网络地址及待检测网络地址对应的用户访问信息，包括：

获取待检测网络地址的访问日志和流量；

解析所述访问日志和流量，获取解析结果；以及

3.根据权利要求1所述的网络恶意爬虫识别方法，其特征在于，所述根据所述用户访问信息提取访问源地址及访问特征，包括：

4.根据权利要求1所述的网络恶意爬虫识别方法，其特征在于，所述通过人工判定方式对异常爬取账单进行恶意账单爬虫识别，包括：

5.根据权利要求1所述的网络恶意爬虫识别方法，其特征在于，所述获取标记的恶意账单爬虫的访问源地址及访问特征，并利用XGBoost算法训练有监督机器学习模型，进行恶意账单爬虫的访问源地址识别，包括：

6.一种网络恶意爬虫识别系统，其特征在于，包括：获取单元，配置用于获取待检测网络地址及待检测网络地址对应的用户访问信息；

分组聚合单元，配置用于根据所述用户访问信息提取预设访问时间段内的特定访问源地址的访问特征，并以访问源地址作为分组进行类别聚合；将所述以访问源地址作为分组进行类别聚合的预设访问时间段内的特定访问源地址的访问特征输入至预设无监督聚类机器学习模型；利用DBSCAN算法训练无监督聚类机器学习模型，识别出异常爬取账单与正常爬取账单；

7.一种终端，其特征在于，包括：

处理器；

用于存储处理器的执行指令的存储器；

其中，所述处理器被配置为执行权利要求1-5中任一项所述的方法。

8.一种存储有计算机程序的计算机可读存储介质，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一项所述的方法。