CN113746790B

CN113746790B - 一种异常流量管理方法、电子设备及存储介质

Info

Publication number: CN113746790B
Application number: CN202010712784.6A
Authority: CN
Inventors: 徐硕; 黄翔
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2020-07-22
Filing date: 2020-07-22
Publication date: 2023-09-05
Anticipated expiration: 2040-07-22
Also published as: CN113746790A

Abstract

本发明实施例提供一种异常流量管理方法、电子设备及存储介质，该异常流量管理方法包括：通过已训练的目标预测模型对多个第一源网际互连协议IP地址的目标特征参数进行预测，若所述第一源IP地址的类型为异常流量IP地址，基于所述第一源IP地址得到第一黑名单信息；其中，所述目标特征参数包括所述第一源IP地址的至少一个不同维度特征参数，所述目标预测模型与历史源IP地址的目标特征参数具有关联关系；确定接收到第一客户端设备发送的第一网页请求信息，若所述且第二源IP地址属于所述第一黑名单信息，执行限制操作以降低对所述第一网页请求信息的响应灵敏度；其中，所述第一网页请求信息包括第二源IP地址。

Description

一种异常流量管理方法、电子设备及存储介质

技术领域

本发明涉及但不限于网络安全领域，尤其涉及一种异常流量管理方法、电子设备及存储介质。

背景技术

目前，随着web应用技术的快速发展，网络环境中存在大量智能化、自动化获取web页面信息的网络爬虫及恶意攻击行为。在电商行业存在着各种类型的营销活动，不少黑灰色产业采用前述例如网络爬虫等方式获取电商的营销活动信息进行“薅羊毛”，或者采用恶意行为攻击电商的营销活动。这些高并发和大流量的网络行为、以及“薅羊毛”现象已严重影响了电商的正常营销效果，导致业务系统的资源开销较大，给予业务系统造成较大影响。

近年来，应用于web领域的异常行为识别方法可概括为如下几种类型：

(1)基于浏览器指纹的追踪识别方法；

(2)以访问控制实现流量合法性效验的方法；

(3)基于数据分析的异常流量识别方法；

但上述解决方法在真实生产环境应用过程存在一定的不足：浏览器指纹和访问加密方式需将部分内容暴露在页面中，容易被破解；已有的统计分析方法、流量特征提取不完善，对于高级黑灰产流量难以达到较高识别率，易造成误判。这些导致上述方法并不能有效彻底解决前述问题。因此，亟需一种可靠的解决方案来准确、快速识别web流量中的网络爬虫及恶意攻击等行为，从而削弱其对电商业务的影响。

发明内容

本发明实施例提供一种异常流量管理方法、电子设备及存储介质，以解决目前不能很好地降低web页面信息的网络爬虫及恶意攻击行为对电商业务的影响的问题。

本发明实施例的技术方案是这样实现的：

第一方面，一种异常流量管理方法，所述方法包括：

通过已训练的目标预测模型对多个第一源网际互连协议IP地址的目标特征参数进行预测，若所述第一源IP地址的类型为异常流量IP地址，基于所述第一源IP地址得到第一黑名单信息；其中，所述目标特征参数包括所述第一源IP地址的至少一个不同维度特征参数，所述目标预测模型与历史源IP地址的目标特征参数具有关联关系；

接收到第一客户端设备发送的第一网页请求信息，若所述且第二源IP地址属于所述第一黑名单信息，执行限制操作以降低对所述第一网页请求信息的响应灵敏度；其中，所述第一网页请求信息包括第二源IP地址。

可选的，所述通过目标预测模型对多个第一源网际互连协议IP地址的目标特征参数进行预测，得到第一黑名单信息，包括：

获取所述多个第一源IP地址在目标时间颗粒度内对应的第二网页请求信息，得到n组所述第二网页请求信息；其中，n为大于1的整数；

基于n组所述第二网页请求信息，确定n组所述第一源IP地址的目标特征参数；

通过所述目标预测模型对n组所述目标特征参数进行预测，得到n个所述第一源IP地址对应的目标类型；其中，所述目标类型包括异常流量IP地址类型和正常流量IP地址类型；

从n个所述第一源IP地址对应的目标类型中，获取类型属于异常流量IP地址类型的第一源IP地址，得到所述第一黑名单信息。

可选的，所述基于n组所述第二网页请求信息，确定n组所述第一源IP地址的目标特征参数，包括：

基于n组所述第二网页请求信息，提取每一组所述第二网页请求信息的目标内容；

基于所述目标内容，生成对应的所述第一源IP地址对应的第一元数据信息；

基于所述第一元数据信息，得到第一数据集合；

基于所述第一数据集合，获取对应的所述第一源IP地址对应的基础特征参数、业务特征参数和时间序列特征参数；

基于所述基础特征参数，确定对所述基础特征参数、所述业务特征参数和所述时间序列特征参数进行数据预处理，得到n组所述目标特征参数。

可选的，所述基于所述目标内容，生成对应的所述第一源IP地址对应的第一元数据信息，包括：

采用目标格式对所述目标内容进行统一格式化处理，生成所述第一元数据信息。

可选的，所述基于所述第一元数据信息，得到第一数据集合，包括：

通过创建实时数据管道，通过所述实时数据管道将所述第一元数据信息传送至目标存储区域；

在所述目标存储区域内，按照所述目标时间颗粒度对所述第一元数据信息进行分区存储，得到第二数据集合；

通过按照目标切分方式对所述第二数据集合中的每一所述第一元数据信息进行切分，得到包括第二元数据信息的第三数据集合；其中，所述第二元数据信息对所述第一元数据信息进行切分后得到的；

对所述第三数据集合中的所述第二元数据信息进行筛选，得到所述第一数据集合。

可选的，所述对所述第三数据集合中的所述第二元数据信息进行筛选，得到所述第一数据集合，包括：

删除所述第二元数据信息中的目标元数据信息，得到所述第一数据集合；其中，所述目标元数据信息中的至少一个核心数据为空值和/或至少一个数据为异常数据。

可选的，所述基于所述第一数据集合，获取对应的所述第一源IP地址对应的基础特征参数、业务特征参数和时间序列特征参数，包括：

对所述第一数据集合进行统计，得到对应的所述第一源IP地址在所述目标时间颗粒度内的第一访问次数、使用的不同用户代理UA个数基于所述第一数据集合，统计所述、使用的来源Referrer个数、接口类型个数、商品个数、商品类别个数；

从所述第一数据集合中，获取对应的所述第一源IP地址在所述目标时间颗粒度内核心访问接口的第二访问次数；

计算所述第二访问次数和所述第一访问次数的比值，得到对应的所述第一源IP地址的核心访问接口的访问比例；

基于所述接口类型个数，计算对应的所述第一源IP地址的接口类型个数方差；

对应的所述第一源IP地址的所述时间序列特征参数；其中，所述基础特征参数包括所述访问次数、所述UA个数和所述Referrer个数基于所述第一数据集合，确定所述，所述业务特征参数包括所述接口类型个数、接口类型个数方差、所述商品个数、所述商品类别个数和所述访问比例。

可选的，所述统计所述第一数据集合中的时间戳信息，计算得对应的所述第一源IP地址的所述时间序列特征参数，包括：

基于从所述第一数据集合，获取对应的所述第一源IP地址发出的全部请求的访问时间戳，得到时间戳信息；

基于所述时间戳信息，确定所述时间序列特征参数。

可选的，所述基于所述时间戳信息，确定所述时间序列特征参数，包括：

统计所述时间戳信息中包括的时间戳集合，以及所述时间戳集合中每一时间戳的目标个数；其中，所述时间戳集合包括不同的时间戳；

从所述时间戳集合中，确定目标个数大于或等于第一阈值的目标时间戳；

按照时间先后顺序，对所述目标时间戳中的每一时间戳的目标个数进行排序，得到目标序列；

计算所述目标序列中每一目标个数的自相关系数，得到所述目标序列对应的自相关系数组；

从所述自相关系数组中的第一个自相关系数开始，统计自相关系数连续大于零的自相关系数的个数，得到所述时间序列特征参数。

可选的，所述基于所述基础特征参数，确定对所述基础特征参数、所述业务特征参数和所述时间序列特征参数进行数据预处理，得到n组所述目标特征参数，包括：

若所述第一访问次数大于或等于第二阈值，对所述基础特征参数、所述业务特征参数和所述时间序列特征参数进行数据预处理，得到n组所述目标特征参数。

可选的，所述确定接收到第一客户端设备发送的第一网页请求信息，且第二源IP地址属于所述第一黑名单信息，执行限制操作以降低对所述第一网页请求信息的响应灵敏度，包括：

确定接收到所述第一客户端设备发送的第一网页请求信息后，判断所述第二源IP地址是否属于第二黑名单信息；其中，所述第二黑名单信息是预先手动设置得到的，所述第二黑名单信息与所述第一黑名单信息不同；

若所述第一源IP地址属于所述第二黑名单信息，获取所述第一网页请求信息中的用户登录标识信息；

基于所述用户登录标识信息，执行限制操作以响应所述第一网页请求信息；

若所述第二源IP地址不属于第二黑名单信息，且第二源IP地址属于所述第一黑名单信息，执行限制操作以降低对所述第一网页请求信息的响应灵敏度。

确定接收到第一客户端设备发送的第一网页请求信息，且第二源IP地址属于所述第一黑名单信息，获取所述第一网页请求信息中的用户登录标识信息；

基于所述用户登录标识信息，执行限制操作以降低对所述第一网页请求信息的响应灵敏度。

可选的，所述基于所述用户登录标识信息，执行限制操作以降低对所述第一网页请求信息的响应灵敏度，包括：

若所述用户登录标识信息合法且不为空，统计所述第二源IP地址在历史单位时长内发送的第一历史网页请求信息的请求次数；

若所述请求次数大于或等于第三阈值，执行限制操作以降低对所述第一网页请求信息的响应灵敏度；

若所述用户登录标识信息不合法，或者若所述用户登录标识信息为空，执行限制操作以降低对所述第一网页请求信息的响应灵敏度。

可选的，所述执行限制操作以降低对所述第一网页请求信息的响应灵敏度，包括：

获取对所述第一网页请求信息的第一响应信息和针对所述第一网页请求信息的历史响应信息；

采用所述历史响应信息对所述第一响应信息中的信息内容进行替换处理，得到第二响应信息，并发送所述第二响应信息至所述第一客户端设备。

可选的，所述执行限制操作以降低对所述第一网页请求信息的响应灵敏度，还包括：

从接收到所述第一网页请求信息开始计时，在计时间隔时长后，获取对所述第一网页请求信息的第三响应信息；

发送所述第三响应信息至所述第一客户端设备；其中，所述限制操作包括即时间隔时长后响应所述第一网页请求信息。

可选的，所述方法还包括：

获取参考数量个第二历史网页请求信息和所述第二历史网页请求信息对应的响应结果；

基于所述参考数量个第二历史网页请求信息，确定所述参考数量组第二历史网页请求信息对应的目标特征参数；

基于采用所述参考数量个第二历史网页请求信息对应的目标特征参数和所述第二历史网页请求信息对应的响应结果，对随机森林预测模型进行训练，得到所述已训练的目标预测模型。

可选的，所述方法还包括：

通过可视化接收标签为异常流量IP地址类型的第三IP地址，并基于所述第三IP地址更新所述第二黑名单信息；和/或，

通过所述可视化平台，接收显示操作，显示与所述显示操作对应的第三历史网页请求信息和/或第三历史网页请求信息对应的响应结果。

可选的，所述目标内容包括请求的时间戳、请求的接口标识信息、源IP地址、请求中包含的用户登录标识信息、请求头中的完整Referrer信息、请求头中的UA信息、移除协议头后完成请求的统一资源定位系统URL信息。

第二方面，一种电子设备，所述电子设备包括：处理器、存储器和通信总线；其中：

所述通信总线，用于实现处理器和存储器之间的通信连接；

所述处理器，用于运行所述存储器中存储的异常流量管理程序，以实现以下步骤：

对多个第一源网际互连协议IP地址的目标特征参数进行预测，若所述第一源IP地址的类型为异常流量IP地址，基于所述第一源IP地址更新，得到第一黑名单信息；其中，所述目标特征参数包括所述第一源IP地址的至少一个不同维度特征参数；

接收到第一客户端设备发送的第一网页请求信息，若且第二源IP地址属于所述第一黑名单信息，执行限制操作以降低对所述第一网页请求信息的响应灵敏度的响应操作；其中，所述第一网页请求信息包括第二源IP地址。

第三方面，一种存储介质，存储有可执行指令，当所述可执行指令被执行时，用于引起处理器执行上述任一项所述的异常流量管理方法。

应用本发明实施例实现以下有益效果：以机器学习模型替代复杂规则系统，实现异常流量识别的第二黑名单信息，并在第一网页请求信息中的第二源IP地址属于第二黑名单信息时，即确定第一网页请求信息为异常流量时，执行对应的限制操作，有效降低了web页面信息的网络爬虫及恶意攻击行为对电商业务的影响，保证了电商营销业务的有效执行。

通过已训练的目标预测模型对多个第一源IP地址的目标特征参数进行预测，得到第一黑名单信息，确定接收到第一客户端设备发送的第一网页请求信息，且第二源IP地址属于第一黑名单信息时，执行限制操作以降低对第一网页请求信息的响应灵敏度；如此，电子设备采用目标预测模型对目标特征参数进行预测，得到第一黑名单信息，以使第一网页请求信息中的第二源IP地址属于第一黑名单信息时，执行响应第一网页请求信息的限制操作，解决了目前不能很好地降低web页面信息的网络爬虫及恶意攻击行为对电商业务的影响的问题，有效降低了web页面信息的网络爬虫及恶意攻击行为对电商业务的影响，有效提高了运行电商营销业务的应用程序的运行效率。

附图说明

图1为本发明实施例提供的一种异常流量管理方法的流程示意图；

图2为本发明实施例提供的另一种异常流量管理方法的流程示意图；

图3为本发明实施例提供的又一种异常流量管理方法的流程示意图；

图4为本发明实施例提供的另一实施例提供的一种异常流量管理方法的流程示意图；

图5为本发明实施例提供的一种目标内容示意图；

图6为本发明实施例提供的一种第一元数据信息传输的流程示意图；

图7为本发明实施例提供的一种时间序列特征参数确定示意图；

图8为本发明实施例提供的一种目标预测模型训练和预测的流程示意图；

图9为本发明实施例提供的一种第二源IP地址的判断流程示意图；

图10为本发明实施例提供的一种应用场景示意图；

图11为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

本发明实施例提供一种异常流量管理方法，该方法应用于电子设备，参见图1所示，该方法包括：

步骤101、通过已训练的目标预测模型对多个第一源网际互连协议IP地址的目标特征参数进行预测，得到第一黑名单信息。

其中，目标特征参数包括第一源IP地址的至少一个不同维度特征参数，目标预测模型与历史源IP地址的目标特征参数具有关联关系。

在本发明实施例中，已训练的目标预测模型为提前对目标神经网络模型采用大量历史网页请求信息包括的目标特征参数以及大量历史网页请求信息对应的响应结果进行训练得到的。其中，历史网页请求信息中包括有历史源IP地址。目标预测模型可以随着时间的推移，样本的增加，不断进行训练改进，已到达最优。第一黑名单信息中包括的第一源IP地址的类型属于异常流量类型。

需说明的是，第一黑名单信息可以根据实际应用场景，不断的进行更新，例如增加新的源IP地址，或者减少第一黑名单信息中的源IP地址等。

步骤102、确定接收到第一客户端设备发送的第一网页请求信息，且第二源IP地址属于第一黑名单信息，执行限制操作以降低对第一网页请求信息的响应灵敏度。

其中，第一网页请求信息包括第二源IP地址。

在本发明实施例中，第一客户端设备可以是装有客户端应用程序的智能电子设备例如智能手机，以及计算机设备例如台式电脑、笔记本电脑和平板电脑等。第一网页请求信息主要是针对电商提供的电子商务业务提出的访问请求信息。第一客户端设备可以是一个客户端设备，也可以包括多个客户端设备。电子设备可以是运行电商业务系统的服务器或者业务平台。电子设备与第一客户端设备之间通常通过互联网进行通信。

限制操作是对第一网页请求信息的响应操作，通常为技术开发人员预先设定的在第二源IP地址属于第一黑名单信息时，执行限制操作，以降低电子设备执行对第一网页请求信息进行快速响应的响应方式，从而降低第一客户端设备基于电子设备的快速响应执行的相应操作例如“薅羊毛”行为对电商业务的影响。即电子设备执行限制操作后，第一客户端接收到的响应存在一定延迟和/或经过一定伪装的，这样，可以降低第以客户端设备对电子设备运行的营销业务的影响，提高了电商的营销业务的推广效率。

本发明实施例所提供的异常流量管理方法，通过已训练的目标预测模型对多个第一源IP地址的目标特征参数进行预测，得到第一黑名单信息，确定接收到第一客户端设备发送的第一网页请求信息，且第二源IP地址属于第一黑名单信息时，执行限制操作以降低对第一网页请求信息的响应灵敏度；如此，电子设备采用目标预测模型对目标特征参数进行预测，得到第一黑名单信息，以使第一网页请求信息中的第二源IP地址属于第一黑名单信息时，执行响应第一网页请求信息的限制操作，解决了目前不能很好地降低web页面信息的网络爬虫及恶意攻击行为对电商业务的影响的问题，有效降低了web页面信息的网络爬虫及恶意攻击行为对电商业务的影响，有效提高了运行电商营销业务的应用程序的运行效率，保证了电商营销业务的有效运行，并提高了对正常用户的使用体验效果。

基于前述实施例，本发明实施例提供一种异常流量管理方法，该方法应用于电子设备，参见图2所示，该方法包括：

步骤201、获取多个第一源IP地址在目标时间颗粒度内对应的第二网页请求信息，得到n组第二网页请求信息。

其中，n为大于1的整数。

在本发明实施例中，目标时间颗粒度指的是一个时间周期，例如每15分钟、每一个小时、每24小时等，时间周期可以根据实际情况来确定。每一组第二网页请求信息对应一个第一源IP地址。电子设备在接收到第二网页请求信息后，可以根据第二网页请求信息中包括的第一源IP地址对第二网页请求信息进行分类存储，这样，电子设备可以获取目标事件颗粒度内，每一第一源IP地址对应的第二网页请求信息，在有n个第一源IP地址时，得到对应的n组第二网页请求信息。

步骤202、基于n组第二网页请求信息，确定n组第一源IP地址的目标特征参数。

其中，目标特征参数包括第一源IP地址的至少一个不同维度特征参数。

在本发明实施例中，统计目标时间颗粒度内源IP地址为第一源IP地址的第二网页请求信息，并对目标时间颗粒度内的第二网页请求信息，进行统计分析确定第一源IP地址的目标特征参数。

步骤203、通过目标预测模型对n组目标特征参数进行预测，得到n个第一源IP地址对应的目标类型。

其中，目标类型包括异常流量IP地址类型和正常流量IP地址类型。

在本发明实施例中，在一些应用场景中，采用目标预测模型对目标特征参数进行预测时，可以输出用于表示第一源IP地址的类型的标签。即用不同的标签来表示第一源IP地址对应的目标类型。

步骤204、从n个第一源IP地址对应的目标类型中，获取类型属于异常流量IP地址类型的第一源IP地址，得到第一黑名单信息。

在本发明实施例中，第一黑名单信息为采用目标预测模型预测到的类型为异常流量IP地址类型的源IP地址。在一些应用场景中，可以按照设定的汇总时间，将第一黑名单信息推送至电子设备的缓存区域中，以便后续从缓存区域中获取第一黑名单信息对后续接收到的网页请求信息中的源IP地址进行判断，进而确定是否对后续接收到的网页请求信息中的源IP地址执行限制操作，实现周期性对第一黑名单信息的更新，保证了第一黑名单信息中的异常流量IP地址类型的实时性。

步骤205、确定接收到第一客户端设备发送的第一网页请求信息，且第二源IP地址属于第一黑名单信息，执行限制操作以降低对第一网页请求信息的响应灵敏度。

其中，第一网页请求信息包括第二源IP地址。

在本发明实施例中，电子设备接收到第一客户端设备发送的第一网页请求信息后，对第一网页请求信息进行解析，得到第一网页请求信息中包括的第二源IP地址，并判断第二源IP地址是否属于第一黑名单信息，若第二源IP地址不属于第一黑名单信息，执行正常的响应操作；若第二源IP地址属于第一黑名单信息，执行限制操作，从而降低对第一网页请求信息的响应灵敏度。

需要说明的是，本实施例中与其它实施例中相同步骤和相同内容的说明，可以参照其它实施例中的描述，此处不再赘述。

基于前述实施例，本发明实施例提供一种异常流量管理方法，该方法应用于电子设备，参见图3所示，该方法包括：

步骤301、获取多个第一源IP地址在目标时间颗粒度内对应的第二网页请求信息，得到n组第二网页请求信息。

其中，n为大于1的整数。

在本发明实施例中，以电子设备为运行电商业务的服务器，第一客户端设备为计算机为例进行说明，服务器接收到计算机发送的第二网页请求信息，即针对电商业务的网页请求信息，例如第二网页请求信息为访问某一店铺中的某一商品的请求信息后，将第二网页请求信息按照第二网页请求信息中包括的第一源IP地址进行分类，并按照目标时间颗粒度进行存储。例如将第二网页请求信息按照15分钟的时间颗粒度进行存储的同时，还可以按照1小时的时间颗粒度进行存储。

步骤302、基于n组第二网页请求信息，提取每一组第二网页请求信息的目标内容。

其中，目标内容包括请求的时间戳、请求的接口标识信息、源IP地址、请求中包含的用户登录标识信息、请求头中的完整Referrer信息、请求头中的UA信息、移除协议头后完成请求的统一资源定位系统URL信息。

在本发明实施例中，对每一组第二网页请求信息中的每一第二网页请求信息进行解析，得到每一第二网页请求信息的目标内容，从而得到每一组第二网页请求信息对应的目标内容。

步骤303、基于目标内容，生成对应的第一源IP地址对应的第一元数据信息。

在本发明实施例中，第一元数据信息电子设备对每一组第二网页请求信息进行解析，从而提取得到一组目标内容，并对一组目标内容中的每一目标内容进行预处理，生成与第一源IP地址对应的一组第一元数据信息。

步骤304、基于第一元数据信息，得到第一数据集合。

在本发明实施例中，电子设备在目标时间颗粒度对应的时长范围内，收集与第一源IP地址对应的第一元数据信息，得到第一数据集合。第一数据集合中包括至少一个第一元数据信息。

步骤305、基于第一数据集合，获取对应的第一源IP地址对应的基础特征参数、业务特征参数和时间序列特征参数。

在本发明实施例中，对第一数据集合中的第一元数据信息进行统计分析，得到第一源IP地址对应的基础特征参数、业务特征参数和时间序列特征参数。

步骤306、基于基础特征参数，确定对基础特征参数、业务特征参数和时间序列特征参数进行数据预处理，得到n组目标特征参数。

在本发明实施例中，对基础特征参数进行判断，若基础特征参数满足预设条件，确定对基础特征参数、业务特征参数和时间序列特征参数进行数据预处理，得到目标特征参数。数据预处理包括数据降噪、空值处理、归一化、数据不平衡等处理。

步骤307、通过目标预测模型对n组目标特征参数进行预测，得到n个第一源IP地址对应的目标类型。

在本发明实施例中，由于目标特征参数是经过数据预处理方式处理过的，因此可以通过目标预测模型快速对n组目标特征参数进行预测时，能够加快目标预测模型的收敛速度，提高目标预测模型预测的准确率。

步骤308、从n个第一源IP地址对应的目标类型中，获取类型属于异常流量IP地址类型的第一源IP地址，得到第一黑名单信息。

在本发明实施例中，从n个第一源IP地址对应的目标类型中获取类型为异常流量IP地址类型的第一源IP地址，生成第一黑名单信息。其中，第一黑名单信息中包括的第一源IP地址设置有限制时效，其中，第一黑名单信息中的第一源IP地址的限制时效可以全部相同，也可以部分相同，也可以全部不同。

在实际应用场景中，可以将第一黑名单信息在限制时效范围内推送至电子设备的缓存区域内，方便电商业务系统使用该第一黑名单信息。

步骤309、确定接收到第一客户端设备发送的第一网页请求信息，且第二源IP地址属于第一黑名单信息，执行限制操作以降低对第一网页请求信息的响应灵敏度。

其中，第一网页请求信息包括第二源IP地址。

在本发明实施例中，电子设备接收到第一客户端发送的第一网页请求信息后，从缓存区域中获取第一黑名单信息，并将第二源IP地址与第一黑名单信息进行比较，判断第二源IP地址是否在第一黑名单信息中，若第二源IP地址在第一黑名单信息中，执行限制操作以响应第一网页请求信息。

本发明实施例所提供的异常流量管理方法，通过已训练的目标预测模型对多个第一源IP地址的目标特征参数进行预测，得到第一黑名单信息，确定接收到第一客户端设备发送的第一网页请求信息，且第二源IP地址属于第一黑名单信息时，执行限制操作以降低对第一网页请求信息的响应灵敏度；如此，电子设备采用目标预测模型对目标特征参数进行预测，得到第一黑名单信息，以使第一网页请求信息中的第二源IP地址属于第一黑名单信息时，执行响应第一网页请求信息的限制操作，解决了目前不能很好地降低web页面信息的网络爬虫及恶意攻击行为对电商业务的影响的问题，有效降低了web页面信息的网络爬虫及恶意攻击行为对电商业务的影响，有效提高了运行电商营销业务的应用程序的运行效率，保证了电商营销业务的有效运行，并提高了对正常用户的使用体验效果。进一步的，融合源IP地址的基础特征参数、业务特征参数和时间序列特征参数3种维度特征为一体，构建完善的目标预测模型，对源IP地址进行预测得到对应的黑名单信息，提高异常流量识别置信度。

基于前述实施例，本发明实施例提供一种异常流量管理方法，参见图4所示，该方法包括：

步骤401、获取多个第一源IP地址在目标时间颗粒度内对应的第二网页请求信息，得到n组第二网页请求信息。

其中，n为大于1的整数。

步骤402、基于n组第二网页请求信息，提取每一组第二网页请求信息中的目标内容。

步骤403、采用目标格式对目标内容进行统一格式化处理，生成第一元数据信息。

在本发明实施例中，目标格式可以为名称-属性值的键值对形式，使用统一分隔符连接目标内容中的所有内容，形成每一条第一网页请求信息对应的第一元数据信息。

示例性的，可以用T(即时间Time的英文缩写)表示请求的时间戳的名称，对应的属性值为具体的时间戳；用C(即接口Connector的英文缩写)表示请求的接口标识信息的名称，对应的属性值为具体的接口标识信息；用IP表示源IP地址的名称，对应的属性值为具体的源IP地址；用U(即用户User的英文缩写)表示请求中包含的用户登录标识信息的名称，对应的属性值为用户登录名；用R(即Referrer的英文缩写)表示请求头中的完整Referrer信息的名称，对应的属性值为具体的完整Referrer信息；用UA(即用户代理User-Agent的英文缩写)表示请求头中的UA信息的名称，对应的属性值为具体的UA信息；用URL表示移除协议头后完成请求的统一资源定位系统URL信息的名称，对应的属性值为具体的URL信息，统一的分隔符可以是分号、冒号、横线、逗号等。第一元数据信息具体可以表示为：T-20xx.xx.xx；C-Y1；IP-175.191.xxx.xxx；U-用户1；R-完整Referrer信息；UA-UA信息；URL-http://www.cxxx.com。对应的，目标内容可以如图5所示，包括时间戳、接口名称即接口标识信息、ip即IP地址、用户名即用户登录标识信息、Referrer、UA和URL。

步骤404、创建实时数据管道，通过实时数据管道将第一元数据信息传送至目标存储区域。

在本发明实施例中，实时数据管道可以通过分布式发布订阅消息系统Kafka来实现。目标存储区域可以是Hadoop中的分布式文件系统(Hadoop Distributed File System，HDFS)。

步骤405、在目标存储区域内，按照目标时间颗粒度对第一元数据信息进行分区存储，得到第二数据集合。

在本发明实施例中，电子设备采用软件开发工具包(Software Development Kit，SDK)完成第一元数据信息的异步上报，即通过基于分布式发布订阅消息系统Kafka创建的实时数据管道，将第一元数据信息实时分发到Hadoop中的分布式文件系统(HadoopDistributed File System，HDFS)中。

这样，通过采用Kafka创建的实时数据管道批量、异步上报第一元数据信息，保障了上报第一元数据信息时不影响电商主业务流程性能。在HDFS中，按照指定分区，可以采用京东大数据平台提供的实时计算平台(JDQ平台)提供的基于流式实时计算框架(SparkStreaming)的数据分发工具，消费Kafka队列中的第一元数据消息，并将第一元数据消息实时分发到HDFS中。在HDFS中按照目标时间颗粒度例如包括小时和分钟两个维度对第一元数据信息进行分区，即将第一元数据分别存储在对应的小时的存储区域内和对应的分钟的存储区域内。

示例性的，若第一元数据信息的时间戳为2020年x月y日h小时，将第一元数据信息存储在y日对应的存储区域内，并将第一元数据信息存储在h小时至h+1小时对应的存储区域内。这样，按照目标时间颗粒度存储第一元数据信息，可以方便后续按照不同的时间颗粒度进行数据分析。

步骤406、按照目标切分方式对第二数据集合中的每一第一元数据信息进行切分，得到包括第二元数据信息的第三数据集合。

其中，第二元数据信息对第一元数据信息进行切分后得到的。

在本发明实施例中，通过京东大数据平台提供的调度中心Buffalo平台撰写Python脚本，实现将HDFS中的数据加载到数据仓库基础工具HIVE表中，通过HIVE同时对第一元数据信息中的键值对格式内容按照指定分隔符进行切分，得到切分后的第二元数据信息，这样，对第二数据集合中的每一第一元数据信息进行上述处理，得到包括第二元数据信息的第三数据集合。步骤405和406对应的数据传输流程具体可以参照图6所示，电子设备获取到的第一元数据信息，通过SDK进行数据异步上报，使用基于Kafka打造的实时数据管道JDQ上报批量、异步上报第一元数据信息，JDQ将第一元数据信息实时分发到HDFS中，调度中心Buffalo将HDFS中的数据加载到HIVE表，通过HQL对HIVE表中的数据进行切分处理。

步骤407、对第三数据集合中的第二元数据信息进行筛选，得到第一数据集合。

在本发明实施例中，对第三数据集合中的第二元数据信息进行无效数据例如空值、异常数据的删除处理，筛选得到第一数据集合。

在本发明其他实施例中，步骤407可以由以下步骤来实现：删除第二元数据信息中的目标元数据信息，得到第一数据集合；其中，目标元数据信息中的至少一个核心数据为空值和/或至少一个数据为异常数据。

步骤408、基于第一数据集合，获取对应的第一源IP地址对应的基础特征参数、业务特征参数和时间序列特征参数。

在本发明其他实施例中，步骤408可以由步骤a11～a15来实现：

步骤a11、对第一数据集合进行统计，得到对应的第一源IP地址在目标时间颗粒度内的第一访问次数、使用的不同用户代理UA个数、使用的来源Referrer个数、接口类型个数、商品个数、商品类别个数。

在本发明实施例中，异常流量在进行威胁攻击和网络爬虫等行为时，偏重于使用高频请求以获取最大化、最快捷的收益，因此流量在单位时间内的访问次数可作为区分异常流量和正常流量的主要特征之一。因此，可以通过统计第一数据集合中，在目标时间颗粒度内第一源IP地址的访问次数，以进行后续分析。

在正常用户通过浏览器发起web请求时，通常会自动装填浏览器的标识信息，而不同浏览器拥有不同的标识。但针对异常流量时，通常需要维护UA代理池，存在多样性差特点或为实现UA伪装，随机性极高等特点。因此，可以通过统计第一数据集合中，在目标时间颗粒度内第一源IP地址使用的UA个数，以进行后续分析。

正常用户通过浏览器发起web请求时，通常会自动装填页面来源信息，即正常业务流程中不同模块所属的不同域名及对应后缀。而异常流量通常需要维护Referrer代理池，这样存在多样性差的特点。因此，可以通过统计第一数据集合中，在目标时间颗粒度内第一源IP地址使用的Referrer个数，以进行后续分析。

在电商业务平台中常出现如下场景，正常流量进入业务系统A时，会异步发起约N个请求接口到业务系统B获取数据，其中，具体的N会随着商品编号的不同而略有差异，因此，可以认为正常流量在访问时，请求接口的多样性符合正态分布。而异常流量往往针对特定需求，这样，请求接口多样性分布呈一边倒态势。因此，可以通过统计第一数据集合中，在目标时间颗粒度内第一源IP地址请求访问的接口类型个数，以进行后续分析。

正常用户根据自身需求或电商平台推荐内容，在浏览商品的种类上存在一定局限性。而异常流量为了尽可能多的获取商品数据，爬取商品种类偏高。这样，可以通过统计第一数据集合中，在目标时间颗粒度内第一源IP地址请求访问的商品个数，以进行后续分析。

正常用户根据自身需求或电商平台推荐内容，在浏览商品的所属分类即类别上存在一定局限性。而异常流量为了获取紧俏商品优惠信息或单纯爬取更多商品数据，商品的所属类别存在极高或极低的两种极端现象。这样，可以通过统计第一数据集合中，在目标时间颗粒度内第一源IP地址请求访问的商品类别个数，以进行后续分析。

步骤a12、从第一数据集合中，获取对应的第一源IP地址在目标时间颗粒度内核心访问接口的第二访问次数。

步骤a13、计算第二访问次数和第一访问次数的比值，得到对应的第一源IP地址的核心访问接口的访问比例。

在本发明实施例中，在正常流量和异常流量划分上存在一定误差。其中，“薅羊毛”问题表征为在个别接口上流量偏移现象严重，因此，对核心接口的访问比例进行统计，能够弥补上述步骤a11中统计的接口类型个数导致接口平行性单一特征的不稳定性的缺陷。这样，可以通过统计第一数据集合中，在目标时间颗粒度内第一源IP地址请求访问的核心接口的访问比例，以进行后续分析。其中，根据第一数据集合，统计第一源IP地址在目标时间颗粒度内所有核心接口的访问次数的第一总数，并统计第一源IP地址在目标时间颗粒度内所有接口的访问次数的第二总数，计算第一总数与第二总数的比值得到第一源IP地址在目标时间颗粒度内请求访问核心接口的访问比例。

步骤a14、基于接口类型个数，计算对应的第一源IP地址的接口类型个数方差。

在本发明实施例中，在上述步骤a11中介绍的接口类型多样性特征基础上，正常流量的IP在不同接口上的访问次数离散程度较弱。而异常流量由于自身需求，需要集中访问个别接口，造成不同接口访问次数离散程度增大的情形，因此，进一步可以使用接口类型个数方差刻画接口类型个数的特征，以通过接口类型个数方差表征接口平行性。这样，可以通过统计第一数据集合中，在目标时间颗粒度内第一源IP地址请求访问的接口类型个数的方差，得到接口类型个数方差，以进行后续分析。

接口类型个数方差P具体可以通过以下公式来计算得到：其中，N表示第一源IP地址请求访问的接口类型个数，x_i表示第一源IP地址访问第i个接口的次数，x表示第一源IP地址访问每一接口的平均次数，∑表示累加。

步骤a15、统计第一数据集合中的时间戳信息，计算对应的第一源IP地址的时间序列特征参数。

在本发明实施例中，正常用户的访问时间点是随机的，访问时间点之间没有任何关联的，其访问时间序列图呈现出无规律，无稳定均值和方差的态势。而程序化工具的访问行为即异常流量的访问时间序列通常具有规律性和持续性，尤其一些异常流量为规避基于访问次数的特征检测，通常会在访问时间序列曲线中呈现一定规律，例如前一时间段的访问行为将影响下一时间点的访问，呈现出有规律、可预测的特性。这样，可以通过统计第一数据集合中，在目标时间颗粒度内第一源IP地址请求访问的访问时间戳，得到时间戳信息。然后基于时间戳信息，计算得到时间序列特征参数。

在本发明其他实施例中，步骤a15可以由步骤a151～a152来实现：

步骤a151、从第一数据集合，获取对应的第一源IP地址发出的全部请求的访问时间戳，得到时间戳信息。

在本发明实施例中，时间戳信息中包括目标时间颗粒度内第一源IP地址发送的所有请求的访问时间戳。

步骤a152、基于时间戳信息，确定时间序列特征参数。

在本发明实施例中，对时间戳信息进行统计分析，统计得到时间序列特征参数。

在本发明其他实施例中，步骤a152可以由步骤a1521～a1525来实现：

步骤a1521、统计时间戳信息中包括的时间戳集合，以及时间戳集合中每一时间戳的目标个数。

其中，时间戳集合包括不同的时间戳。

在本发明实施例中，电子设备统计时间戳信息中包括的不同时间戳，得到时间戳集合，进一步统计时间戳集合中每一不同时间戳在时间戳信息中出现的次数，得到目标个数。

步骤a1522、从时间戳集合中，确定目标个数大于或等于第一阈值的目标时间戳。

在本发明实施例中，第一阈值为一个经验值，可以根据实际情况进行不断校正修改。若目标个数小于第一阈值，不纳入分析范围，因为此类IP的信息量少，无法充分体现自适应性。

步骤a1523、按照时间先后顺序，对目标时间戳中的每一时间戳的目标个数进行排序，得到目标序列。

示例性的，以时间戳信息中包括的按照时间先后顺序进行排序的时间为：t₁、t₂、……、t_n，对应的目标个数为m₁、m₂、……、m_n，其中，n表示时间戳信息中包括的不同时间戳的目标个数，n为大于0的整数，由此，得到的目标序列可以记为((t₁，m₁)，(t₂，m₃)，……，(t_n，m_n))。

步骤a1524、计算目标序列中每一目标个数的自相关系数，得到目标序列对应的自相关系数组。

在本发明实施例中，目标序列中第k个目标个数的自相关系数ACF(k)可以采用以下计算公式计算得到：或者其中，μ为目标序列中目标个数的平均值，k＝1，2，……，n-1。

步骤a1525、从自相关系数组中的第一个自相关系数开始，统计自相关系数连续大于零的自相关系数的个数，得到时间序列特征参数。

示例性的，如图7所示，纵坐标为自相关系数，横坐标为时间戳的时间点按顺序排序的个数，这样，从横坐标上第0个时间点开始，统计一直到第14个时间点的自相关系数均大于0，因此，可以确定时间序列特征参数为14。

步骤409、基于基础特征参数，确定对基础特征参数、业务特征参数和时间序列特征参数进行数据预处理，得到n组目标特征参数。

在本发明其他实施例中，步骤409可以由以下步骤来实现：若第一访问次数大于或等于第二阈值，对基础特征参数、业务特征参数和时间序列特征参数进行数据预处理，得到n组目标特征参数。

步骤410、通过目标预测模型对n组目标特征参数进行预测，得到n个第一源IP地址对应的目标类型。

在本发明实施例中，参照图8所示，电子设备获取大量历史源IP地址的基础特征参数：访问次数、UA个数和Referrer个数，历史源IP地址的业务特征参数：接口类型个数、接口类型个数方差、商品个数、商品类别个数和访问比例，历史源IP地址的时间序列特征参数后；将大量历史源IP地址的基础特征参数、业务特征参数和时间序列特征参数进行多维度整合后，进行模型训练，得到目标训练模型；电子设备获取第一网页访问请求信息包括的第一源IP地址的基础特征参数：访问次数、UA个数和Referrer个数，第一源IP地址的业务特征参数：接口类型个数、接口类型个数方差、商品个数、商品类别个数和访问比例，第一源IP地址的时间序列特征参数，然后获取目标训练模型，对第一源IP地址的基础特征参数、业务特征参数和时间序列特征参数进行预测，得到预测结果。

步骤411、从n个第一源IP地址对应的目标类型中，获取类型属于异常流量IP地址类型的第一源IP地址，得到第一黑名单信息。

步骤412、确定接收到第一客户端设备发送的第一网页请求信息，且第二源IP地址属于第一黑名单信息，执行限制操作以降低对第一网页请求信息的响应灵敏度。

其中，第一网页请求信息包括第二源IP地址。

在本发明其他实施例中，步骤412还可以通过步骤b11～b14来实现：

步骤b11、确定接收到第一客户端设备发送的第一网页请求信息后，判断第二源IP地址是否属于第二黑名单信息。

其中，第二黑名单信息是预先手动设置得到的，第二黑名单信息与第一黑名单信息不同。

在本发明实施例中，第二黑名单信息是电商业务系统管理技术人员手工设置的。

步骤b12、若第一源IP地址属于第二黑名单信息，获取第一网页请求信息中的用户登录标识信息。

步骤b13、基于用户登录标识信息，执行限制操作以响应第一网页请求信息。

步骤b14、若第二源IP地址不属于第二黑名单信息，且第二源IP地址属于第一黑名单信息，执行限制操作以降低对第一网页请求信息的响应灵敏度。

基于图4所示的实施例，步骤412还可以由以下步骤c11～c12来实现：

步骤c11、确定接收到第一客户端设备发送的第一网页请求信息，且第二源IP地址属于第一黑名单信息，获取第一网页请求信息中的用户登录标识信息。

步骤c12、基于用户登录标识信息，执行限制操作以降低对第一网页请求信息的响应灵敏度。

在本发明其他实施例中，步骤b12或步骤c12可以由步骤d121～d123来实现：

步骤d121、若用户登录标识信息合法且不为空，统计第二源IP地址在历史单位时长内发送的第一历史网页请求信息的请求次数。

步骤d122、若请求次数大于或等于第三阈值，执行限制操作以降低对第一网页请求信息的响应灵敏度。

在本发明实施例中，第三阈值为一个经验值，可以实际应用场景进行校正该表。

步骤d123、若用户登录标识信息不合法，或者若用户登录标识信息为空，执行限制操作以降低对第一网页请求信息的响应灵敏度。

在本发明其他实施例中，步骤412、步骤b12、步骤c12和步骤d123中的“执行限制操作以降低对第一网页请求信息的响应灵敏度”具体可以由以下步骤e11～e12，或者步骤e13～e14，或者f11～f14来实现：

步骤e11、获取对第一网页请求信息的第一响应信息和针对第一网页请求信息的历史响应信息。

步骤e12、采用所述历史响应信息第一响应信息中的信息内容进行替换处理，得到第二响应信息，并发送第二响应信息至第一客户端设备。

在本发明实施例中，获取第一网页请求信息中请求商品的历史数据，对当前请求商品的商品编号、地址信息、回调函数(Callback)等细节自适应替换，实现对第一响应信息的伪装精细化处理，从而得到第二响应信息，并将第二响应信息发送至第二客户端设备，以响应第一网页请求信息。这样，可以增强实时模型限流的时效性。

步骤e13、从接收到第一网页请求信息开始计时，在计时间隔时长后，获取对第一网页请求信息的第三响应信息。

在本发明实施例中，间隔时长可以是一个经验值，可以根据实际需要进行不断校正修改。第三响应信息可以是对第一网页请求信息的当前正常响应，只不过步骤e13实现的是延迟响应第一网页请求信息。这样，可以有效解决由于快速进行数据伪装或精准降级后导致恶意用户反复重试，形成流量报复的问题。

步骤e14、发送第三响应信息至第二客户端设备。

步骤f11、获取对第一网页请求信息的第一响应信息和针对第一网页请求信息的历史响应信息。

步骤f12、采用历史响应信息对第一响应信息中的信息内容进行替换处理，得到第二响应信息。

步骤f13、从接收到第一网页请求信息开始计时，在计时间隔时长后，获取对第一网页请求信息的第三响应信息。

其中，第三响应信息为第二响应信息。

步骤f14、发送第三响应信息至第二客户端设备。

在本发明实施例中，参照图9所示为执行限制操作的一个流程示意图包括：

步骤1、开始；

步骤2、获取客户端的第一网页请求信息中的第二源IP地址和用户名；

步骤3、判断第二源IP地址是否属于手动白名单信息，若属于手动白名单信息，执行步骤10，否则执行步骤4；

步骤4、若第二源IP地址不属于手动白名单信息，判断第二源IP地址是否属于第三黑名单信息，若属于第三黑名单信息，执行步骤6，否则执行步骤5；

步骤5、第二源IP地址不属于第三黑名单，判断第二源IP地址是否属于缓存中第二黑名单信息，若属于第二黑名单信息，执行步骤6，否则执行步骤10；

步骤6、若第二源IP地址属于第三黑名单信息，或者第二源IP地址不属于第三黑名单信息，但第二源IP地址属于第二黑名单信息时，判断用户名是否合法且不为空，若用户名合法且不为空执行步骤7，否则执行步骤8；

步骤7、若用户名合法且不为空，判断单位时间内第二源IP地址发送的请求次数是否超过阈值，若超过执行步骤8，否则执行步骤10；

步骤8、若单位时间内第二源IP地址发送的请求次数超过阈值，对第二源IP地址本次请求的响应数据进行伪装精细化处理。

例如以历史响应信息为基础，对第二源IP地址本次请求的响应数据中的商品编号、地址信息、Callback等细节自适应替换，增强实时模型限流的时效性。

步骤9、对第二源IP地址本次请求的响应数据使用定时器进行延迟。

以缓解由于快速进行数据伪装或精准降级后导致恶意用户反复重试，导致流量报复现象。

步骤10、执行正常线上业务流程。

步骤11、结束。

在本发明其他实施例中，在步骤410之前，电子设备还用于执行步骤g11～g12：

步骤g11、获取参考数量个第二历史网页请求信息和第二历史网页请求信息对应的响应结果。

步骤g12、基于参考数量个第二历史网页请求信息，确定参考数量组第二历史网页请求信息对应的目标特征参数。

步骤g13、采用参考数量个第二历史网页请求信息对应的目标特征参数和第二历史网页请求信息对应的响应结果，对随机森林预测模型进行训练，得到已训练的目标预测模型。

在本发明实施例中，将参考数量个第二历史网页请求信息对随机森林预测模型进行训练，不断地优化随机森林预测模型的参数，从而得到最优的目标预测模型。

在本发明其他实施例中，在步骤b11之前，电子设备还用于执行以下步骤：接收标签为IP地址黑名单的第三IP地址，并基于第三IP地址更新第二黑名单信息。

在本发明实施例中，用户可以通过可视化平台接收标签为异常流量IP地址类型的第三IP地址，并在第二黑名单信息中没有第三IP地址时，将第三IP地址存储至第二黑名单信息中，实现对第二黑名单信息的更新，进而实现用户对第二黑名单信息的设置。可视化平台是电商业务系统的管理技术人员可以进行操作的平台。

在本发明其他实施例中，在前述任意一个步骤之前或者任意一个步骤之后，电子设备还用于执行以下步骤：接收显示操作，显示与显示操作对应的第三历史网页请求信息和/或第三历史网页请求信息对应的响应结果。

在本发明实施例中，显示操作也是用户通过可视化平台进行相应操作实现的。

基于前述实施例，本发明实施例提供一种客户端与电商业务管理平台之间的应用场景，如图10所示，应用场景包括：客户端E和电商业务管理平台F，电商业务管理平台F包括第一处理模块F1、第二处理模块F2、第三处理模块F3、第四处理模块F4和显示模块F5。

其中，第一处理模块F1用于运行电商业务系统和执行限制操作，第一处理模块F1接收客户端发送的请求信息，请求信息包括前述的第一网页请求信息和第二网页请求信息；第二处理模块F2，用于对目标时间颗粒度内的第二网页请求信息中的目标内容进行处理，生成第一源IP地址对应的目标特征参数，并将目标特征参数发送至第三处理模块F3；第三处理模块F3用于采用目标预测模型对特征向量进行预测，得到第一源IP地址的类型，并在第一源IP地址的类型为异常流量IP地址时，发送至第四处理模块F4；第四处理模块F4处为缓存区域，存储有基于第三处理模块发送的异常流量IP地址生成的第一黑名单信息和对第一黑名单信息进行更新得到第二黑名单信息，和基于显示模块F5发送的手工设置的IP地址黑名单生成的第三黑名单信息；第一处理模块F1还用于在接收到第一网页请求信息后，从第四处理模块F4中获取第二黑名单信息和第三黑名单信息，基于第二黑名单信息和第三黑名单信息对第一网页请求信息中的第二源IP地址进行判断，并根据判断结果执行限制操作；显示模块F5还用于接收电商业务系统的管理技术人员的操作，显示相应的数据内容。

本发明实施例所提供的异常流量管理方法，通过已训练的目标预测模型对多个第一源IP地址的目标特征参数进行预测，得到第一黑名单信息，确定接收到第一客户端设备发送的第一网页请求信息，且第二源IP地址属于第一黑名单信息时，执行限制操作以降低对第一网页请求信息的响应灵敏度；如此，电子设备采用目标预测模型对目标特征参数进行预测，得到第一黑名单信息，以使第一网页请求信息中的第二源IP地址属于第一黑名单信息时，执行响应第一网页请求信息的限制操作，解决了目前不能很好地降低web页面信息的网络爬虫及恶意攻击行为对电商业务的影响的问题，有效降低了web页面信息的网络爬虫及恶意攻击行为对电商业务的影响，有效提高了运行电商营销业务的应用程序的运行效率，保证了电商营销业务的有效运行，并提高了对正常用户的使用体验效果。进一步的，融合源IP地址的基础特征参数、业务特征参数和时间序列特征参数3种维度特征为一体，构建完善的目标预测模型，对源IP地址进行预测得到对应的黑名单信息，提高异常流量识别置信度；构建一种了基于手工黑白名单、目标预测模型进行预测得到的黑名单的异常流量限制机制，保证了限制机制的灵活性、快速性、稳定性和可持续性。

基于前述实施例，本发明实施例提供了一种电子设备，该电子设备可以应用于图1～4对应的实施例提供的异常流量管理方法中，参照图11所示，该电子设备4包括：处理器41、存储器42和通信总线43，其中：

通信总线43，用于实现处理器41和存储器42之间的通信连接；

处理器41，用于运行存储器42中存储的异常流量管理程序，以实现以下步骤：

通过已训练的目标预测模型对多个第一源网际互连协议IP地址的目标特征参数进行预测，得到第一黑名单信息；其中，目标特征参数包括第一源IP地址的至少一个不同维度特征参数，目标预测模型与历史源IP地址的目标特征参数具有关联关系；

确定接收到第一客户端设备发送的第一网页请求信息，且第二源IP地址属于第一黑名单信息，执行限制操作以降低对第一网页请求信息的响应灵敏度；其中，第一网页请求信息包括第二源IP地址。

在本发明其他实施例中，处理器用于执行步骤通过目标预测模型对多个第一源网际互连协议IP地址的目标特征参数进行预测，得到第一黑名单信息时，可以通过以下步骤来实现：

获取多个第一源IP地址在目标时间颗粒度内对应的第二网页请求信息，得到n组第二网页请求信息；其中，n为大于1的整数；

基于n组第二网页请求信息，确定n组第一源IP地址的目标特征参数；

通过目标预测模型对n组目标特征参数进行预测，得到n个第一源IP地址对应的目标类型；其中，目标类型包括异常流量IP地址类型和正常流量IP地址类型；

从n个第一源IP地址对应的目标类型中，获取类型属于异常流量IP地址类型的第一源IP地址，得到第一黑名单信息。

在本发明其他实施例中，处理器用于执行步骤基于n组第二网页请求信息基于第一网页请求信息，确定n组第一源IP地址的目标特征参数时，可以通过以下步骤来实现：

基于n组第二网页请求信息，提取每一组第二网页请求信息中的目标内容；

基于目标内容，生成对应的第一源IP地址对应的第一元数据信息；

基于第一元数据信息，得到第一数据集合；

基于第一数据集合，获取对应的第一源IP地址对应的基础特征参数、业务特征参数和时间序列特征参数；

基于基础特征参数，确定对基础特征参数、业务特征参数和时间序列特征参数进行数据预处理，得到n组目标特征参数。

在本发明其他实施例中，处理器用于执行步骤基于目标内容，生成对应的第一源IP地址对应的第一元数据信息时，可以通过以下步骤来实现：

采用目标格式对目标内容进行统一格式化处理，生成第一元数据信息。

在本发明其他实施例中，处理器用于执行步骤基于第一元数据信息，得到第一数据集合时，可以通过以下步骤来实现：

创建实时数据管道，按照目标时间颗粒度对第一元数据信息进行分区存储，得到第二数据集合；

按照目标切分方式对第二数据集合中的每一第一元数据信息进行切分，得到包括第二元数据信息的第三数据集合；其中，第二元数据信息对第一元数据信息进行切分后得到的；

对第三数据集合中的第二元数据信息进行筛选，得到第一数据集合。

在本发明其他实施例中，处理器用于执行步骤对第三数据集合中的第二元数据信息进行筛选，得到第一数据集合时，可以通过以下步骤来实现：

删除第二元数据信息中的目标元数据信息，得到第一数据集合；其中，目标元数据信息中的至少一个核心数据为空值和/或至少一个数据为异常数据。

在本发明其他实施例中，处理器用于执行步骤基于第一数据集合，获取对应的第一源IP地址对应的基础特征参数、业务特征参数和时间序列特征参数，可以通过以下步骤来实现：

对第一数据集合进行统计，得到对应的第一源IP地址在目标时间颗粒度内的第一访问次数、使用的不同用户代理UA个数、使用的来源Referrer个数、接口类型个数、商品个数、商品类别个数；

从第一数据集合中，获取对应的第一源IP地址在目标时间颗粒度内核心访问接口的第二访问次数；

计算第二访问次数和第一访问次数的比值，得到对应的第一源IP地址的核心访问接口的访问比例；

基于接口类型个数，计算对应的第一源IP地址的接口类型个数方差；

统计第一数据集合中的时间戳信息，计算对应的第一源IP地址的时间序列特征参数；其中，基础特征参数包括访问次数、UA个数和Referrer个数，业务特征参数包括接口类型个数、接口类型个数方差、商品个数、商品类别个数和访问比例。

在本发明其他实施例中，处理器用于执行步骤统计第一数据集合中的时间戳信息，计算得对应的第一源IP地址的时间序列特征参数时，可以通过以下步骤来实现；

从第一数据集合，获取对应的第一源IP地址发出的全部请求的访问时间戳，得到时间戳信息；

基于时间戳信息，确定时间序列特征参数。

在本发明其他实施例中，处理器用于执行步骤基于时间戳信息，确定时间序列特征参数时，可以通过以下步骤来实现：

统计时间戳信息中包括的不同时间戳集合，以及时间戳集合中每一时间戳的目标个数；其中，时间戳集合包括不同的时间戳；

从时间戳集合中，确定目标个数大于或等于第一阈值的目标时间戳；

按照时间先后顺序，对目标时间戳中的每一时间戳的目标个数进行排序，得到目标序列；

计算目标序列中每一目标个数的自相关系数，得到目标序列对应的自相关系数组；

从自相关系数组中的第一个自相关系数开始，统计自相关系数连续大于零的自相关系数的个数，得到时间序列特征参数。

在本发明其他实施例中，处理器用于执行步骤基于基础特征参数，确定对基础特征参数、业务特征参数和时间序列特征参数进行数据预处理，得到n组目标特征参数时，可以通过以下步骤来实现：

若第一访问次数大于或等于第二阈值，对基础特征参数、业务特征参数和时间序列特征参数进行数据预处理，得到n组目标特征参数。

在本发明其他实施例中，处理器用于执行步骤确定接收到第一客户端设备发送的第一网页请求信息，且第二源IP地址属于第一黑名单信息，执行限制操作以降低对第一网页请求信息的响应灵敏度时，可以通过以下步骤来实现：

确定接收到第一客户端设备发送的第一网页请求信息后，判断第二源IP地址是否属于第二黑名单信息；其中，第二黑名单信息是预先手动设置得到的，第二黑名单信息与第一黑名单信息不同；

若第一源IP地址属于第二黑名单信息，获取第一网页请求信息中的用户登录标识信息；

基于用户登录标识信息，执行限制操作以响应第一网页请求信息；

若第二源IP地址不属于第二黑名单信息，且第二源IP地址属于第一黑名单信息，执行限制操作以降低对第一网页请求信息的响应灵敏度。

确定接收到第一客户端设备发送的第一网页请求信息，且第二源IP地址属于第一黑名单信息，获取第一网页请求信息中的用户登录标识信息；

基于用户登录标识信息，执行限制操作以降低对第一网页请求信息的响应灵敏度。

在本发明其他实施例中，处理器用于执行步骤基于用户登录标识信息，执行限制操作以降低对第一网页请求信息的响应灵敏度时，可以通过以下步骤来实现：

若用户登录标识信息合法且不为空，统计第二源IP地址在历史单位时长内发送的第一历史网页请求信息的请求次数；

若请求次数大于或等于第三阈值，执行限制操作以降低对第一网页请求信息的响应灵敏度；

若用户登录标识信息不合法，或者若用户登录标识信息为空，执行限制操作以降低对第一网页请求信息的响应灵敏度。

在本发明其他实施例中，处理器用于执行步骤执行限制操作以降低对第一网页请求信息的响应灵敏度时，可以通过以下步骤来实现：

获取对第一网页请求信息的第一响应信息和针对第一网页请求信息的历史响应信息；

采用历史响应信息对第一响应信息中的信息内容进行替换处理，得到第二响应信息，并发送第二响应信息至第一客户端设备。

在本发明其他实施例中，处理器用于执行步骤执行限制操作以降低对第一网页请求信息的响应灵敏度时，还可以通过以下步骤来实现：

从接收到第一网页请求信息开始计时，在计时间隔时长后，获取对第一网页请求信息的第三响应信息；

发送第三响应信息至第一客户端设备；其中，限制操作包括即时间隔时长后响应第一网页请求信息。

在本发明其他实施例中，处理器还用于执行以下步骤：

获取参考数量个第二历史网页请求信息和第二历史网页请求信息对应的响应结果；

基于参考数量个第二历史网页请求信息，确定参考数量组第二历史网页请求信息对应的目标特征参数；

采用参考数量个第二历史网页请求信息对应的目标特征参数和第二历史网页请求信息对应的响应结果，对随机森林预测模型进行训练，得到已训练的目标预测模型。

在本发明其他实施例中，处理器还用于执行以下步骤：

接收标签为异常流量IP地址类型的第三IP地址，并基于第三IP地址更新第二黑名单信息；和/或

接收显示操作，显示与显示操作对应的第三历史网页请求信息和/或第三历史网页请求信息对应的响应结果。

在本发明其他实施例中，目标内容包括请求的时间戳、请求的接口标识信息、源IP地址、请求中包含的用户登录标识信息、请求头中的完整Referrer信息、请求头中的UA信息、移除协议头后完成请求的统一资源定位系统URL信息。

需要说明的是，本实施例中处理器所执行的步骤的具体实现过程，可以参照图1～4对应的实施例提供的异常流量管理方法中的实现过程，此处不再赘述。

本发明实施例所提供的电子设备，通过已训练的目标预测模型对多个第一源IP地址的目标特征参数进行预测，得到第一黑名单信息，确定接收到第一客户端设备发送的第一网页请求信息，且第二源IP地址属于第一黑名单信息时，执行限制操作以降低对第一网页请求信息的响应灵敏度；如此，电子设备采用目标预测模型对目标特征参数进行预测，得到第一黑名单信息，以使第一网页请求信息中的第二源IP地址属于第一黑名单信息时，执行响应第一网页请求信息的限制操作，解决了目前不能很好地降低web页面信息的网络爬虫及恶意攻击行为对电商业务的影响的问题，有效降低了web页面信息的网络爬虫及恶意攻击行为对电商业务的影响，有效提高了运行电商营销业务的应用程序的运行效率，保证了电商营销业务的有效运行，并提高了对正常用户的使用体验效果。

基于前述实施例，本发明的实施例还提供了一种计算机可读存储介质，简称为存储介质，该存储介质存储有一个或者多个程序，该一个或者多个程序可被一个或者多个处理器执行，以实现参照图1～4对应的实施例提供的异常流量管理方法，此处不再详细赘述。

以上，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种异常流量管理方法，其特征在于，所述方法包括：

通过已训练的目标预测模型对多个第一源网际互连协议IP地址的目标特征参数进行预测，得到第一黑名单信息；其中，所述目标特征参数包括所述第一源IP地址的至少一个不同维度特征参数，所述目标预测模型与历史源IP地址的目标特征参数具有关联关系；确定接收到第一客户端设备发送的第一网页请求信息，且第二源IP地址属于所述第一黑名单信息，根据针对所述第一网页请求信息的历史响应信息对所述第一网页请求信息的第一响应信息内容进行替换处理，将替换后得到的第二响应信息发送至第一客户端；其中，所述第一网页请求信息包括第二源IP地址。

2.根据权利要求1所述的方法，其特征在于，所述通过目标预测模型对多个第一源网际互连协议IP地址的目标特征参数进行预测，得到第一黑名单信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于n组所述第二网页请求信息，确定n组所述第一源IP地址的目标特征参数，包括：

基于所述第一元数据信息，得到第一数据集合；

4.根据权利要求3所述的方法，其特征在于，所述基于所述目标内容，生成对应的所述第一源IP地址对应的第一元数据信息，包括：

5.根据权利要求3所述的方法，其特征在于，所述基于所述第一元数据信息，得到第一数据集合，包括：

创建实时数据管道，通过所述实时数据管道将所述第一元数据信息传送至目标存储区域；

按照目标切分方式对所述第二数据集合中的每一所述第一元数据信息进行切分，得到包括第二元数据信息的第三数据集合；其中，所述第二元数据信息对所述第一元数据信息进行切分后得到的；

6.根据权利要求5所述的方法，其特征在于，所述对所述第三数据集合中的所述第二元数据信息进行筛选，得到所述第一数据集合，包括：

7.根据权利要求5或6所述的方法，其特征在于，所述基于所述第一数据集合，获取对应的所述第一源IP地址对应的基础特征参数、业务特征参数和时间序列特征参数，包括：

对所述第一数据集合进行统计，得到对应的所述第一源IP地址在所述目标时间颗粒度内的第一访问次数、使用的不同用户代理UA个数、使用的来源Referrer个数、接口类型个数、商品个数、商品类别个数；

统计所述第一数据集合中的时间戳信息，计算对应的所述第一源IP地址的所述时间序列特征参数；其中，所述基础特征参数包括所述访问次数、所述UA个数和所述Referrer个数，所述业务特征参数包括所述接口类型个数、接口类型个数方差、所述商品个数、所述商品类别个数和所述访问比例。

8.根据权利要求7所述的方法，其特征在于，所述统计所述第一数据集合中的时间戳信息，计算得对应的所述第一源IP地址的所述时间序列特征参数，包括：

从所述第一数据集合，获取对应的所述第一源IP地址发出的全部请求的访问时间戳，得到时间戳信息；

基于所述时间戳信息，确定所述时间序列特征参数。

9.根据权利要求8所述的方法，其特征在于，所述基于所述时间戳信息，确定所述时间序列特征参数，包括：

10.根据权利要求7所述的方法，其特征在于，所述基于所述基础特征参数，确定对所述基础特征参数、所述业务特征参数和所述时间序列特征参数进行数据预处理，得到n组所述目标特征参数，包括：

11.根据权利要求1所述的方法，其特征在于，所述确定接收到第一客户端设备发送的第一网页请求信息，且第二源IP地址属于所述第一黑名单信息，执行限制操作以降低对所述第一网页请求信息的响应灵敏度，包括：

12.根据权利要求1所述的方法，其特征在于，所述确定接收到第一客户端设备发送的第一网页请求信息，且第二源IP地址属于所述第一黑名单信息，执行限制操作以降低对所述第一网页请求信息的响应灵敏度，包括：

13.根据权利要求11或12所述的方法，其特征在于，所述基于所述用户登录标识信息，执行限制操作以降低对所述第一网页请求信息的响应灵敏度，包括：

14.根据权利要求13所述的方法，其特征在于，所述执行限制操作以降低对所述第一网页请求信息的响应灵敏度，包括：

15.根据权利要求13所述的方法，其特征在于，所述执行限制操作以降低对所述第一网页请求信息的响应灵敏度，还包括：

16.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述参考数量个第二历史网页请求信息，确定所述参考数量个第二历史网页请求信息对应的目标特征参数；

采用所述参考数量个第二历史网页请求信息对应的目标特征参数和所述第二历史网页请求信息对应的响应结果，对随机森林预测模型进行训练，得到所述已训练的目标预测模型。

17.根据权利要求11所述的方法，其特征在于，所述方法还包括：

接收标签为异常流量IP地址类型的第三IP地址，并基于所述第三IP地址更新所述第二黑名单信息；和/或，

接收显示操作，显示与所述显示操作对应的第三历史网页请求信息和/或第三历史网页请求信息对应的响应结果。

18.根据权利要求4所述的方法，其特征在于，所述目标内容包括请求的时间戳、请求的接口标识信息、源IP地址、请求中包含的用户登录标识信息、请求头中的完整Referrer信息、请求头中的UA信息、移除协议头后完成请求的统一资源定位系统URL信息。

19.一种电子设备，其特征在于，所述电子设备包括：处理器、存储器和通信总线；其中：

所述通信总线，用于实现处理器和存储器之间的通信连接；

通过已训练的目标预测模型对多个第一源网际互连协议IP地址的目标特征参数进行预测，得到第一黑名单信息；其中，所述目标特征参数包括所述第一源IP地址的至少一个不同维度特征参数；

确定接收到第一客户端设备发送的第一网页请求信息，且第二源IP地址属于所述第一黑名单信息，根据针对所述第一网页请求信息的历史响应信息对所述第一网页请求信息的第一响应信息内容进行替换处理，将替换后得到的第二响应信息发送至第一客户端；其中，所述第一网页请求信息包括第二源IP地址。

20.一种存储介质，其特征在于，存储有可执行指令，当所述可执行指令被执行时，用于引起处理器执行权利要求1至18中任一项所述的异常流量管理方法。