CN113194002B

CN113194002B - 一种网站异常流量的监控方法、系统及介质

Info

Publication number: CN113194002B
Application number: CN202110493555.4A
Authority: CN
Inventors: 刘玉环; 倪荣亚
Original assignee: Suzhou Moduo Information Technology Co ltd
Current assignee: Suzhou Moduo Information Technology Co ltd
Priority date: 2021-05-07
Filing date: 2021-05-07
Publication date: 2024-05-10
Anticipated expiration: 2041-05-07
Also published as: CN113194002A

Abstract

本发明公开了一种网站异常流量的监控方法、系统及介质，方法包括以下步骤：按照运营日、用户ID及其访问数据提取标签，创建并存储运营历史数据；提取运营历史数据，根据运营历史数据创建用户ID的正态分布模型；提取正态分布模型得出用户ID的访问数据均值，通过访问数据均值及第一抽样区间得出用户ID的正态分布模型的置信区间；判断用户ID的置信区间的第一宽度是否满足阈值，当置信区间的第一宽度大于预定阈值，则执行置信区间缩减策略，判断执行置信区间缩减策略次数，根据判断结果执行提取正态分布模型或封停用户ID，能够提升用户对平台的好感度，且可以打击平台恶意流量，打击用户之间的恶意竞争，保护消费者的合法权益。

Description

一种网站异常流量的监控方法、系统及介质

技术领域

本发明涉及网站流量监控技术领域，特别是涉及一种网站异常流量的监控方法、系统及介质。

背景技术

随着5G网络的迅速发展，人们通过网络进行交流、分享日常的生活，或者各种实体店通过网络贩卖产品的情况变得越来越普及，在各种网络平台上，优质用户相当于明星，这种优质用户可以调动大量的资源以及人气。

这些优质用户的定义为拥有大量的关注人数、点击量或者通过网络直播卖货可以一次性的卖出大量的产品，但是由于网民不知道是否真实售出货物，导致冲动型消费造成损失，并降低消费者对平台的高感度，在网络直播业内话语中，这种卖家的行为是刷单。

刷单即在同一IP，刷单者登录多个ID向卖家输出大量点击量的行为，这种行为可以通过数学模型预测，通过数学模型预测打击刷单者可以保护平台真实的优质用户的口碑。

现有技术中暂无较好的解决方法，可以保护真实的优质用户，并打击刷单者，且提升用户对平台的好感度。

发明内容

本发明主要解决的是由于虚假的优质用户向平台导入大量的异常数据，导致用户降低对平台好感度的问题。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种网站异常流量的监控方法，包括以下步骤：

建立数据仓库：按照运营日、用户ID获取访问数据，创建数据仓库，获取所述访问数据，将其对应的所述运营日及所述用户ID整合为运营历史数据并存储；

创建正态分布模型：在所述数据仓库中提取所述运营历史数据，根据所述运营历史数据创建所述用户ID的正态分布模型；

置信区间获取：提取所述正态分布模型得出所述用户ID的访问数据均值，通过所述访问数据均值及第一抽样区间得出所述用户ID的所述正态分布模型的置信区间；

提取边界并过滤：判断所述用户ID的置信区间的第一宽度是否满足预定阈值，当所述置信区间的所述第一宽度大于所述预定阈值，则执行置信区间缩减策略，判断执行置信区间缩减策略次数，根据判断结果执行提取正态分布模型步骤或异常警告操作步骤；

异常警告操作：发出警告指示，并禁止使用所述用户ID。

优选地，所述建立数据仓库的步骤进一步包括：

提取所述数据仓库内属于所述用户ID的第一字段；

使用图论算法，对比任意所述用户ID的所述第一字段，确定所述用户ID的所述第一字段之间是否存在边；

在所述数据仓库中提取属于所述边的第二字段。

优选地，所述根据所述运营历史数据创建所述用户ID的正态分布模型的步骤进一步包括：

将所述第一字段和所述第二字段根据所述用户ID的所述运营日执行过滤操作，得到所述用户ID的基准字段。

优选地，所述置信区间获取步骤进一步包括：

根据所述运营历史数据设定显著性水平；

计算所述基准字段的平均值和标准偏差；

根据所述用户ID的运营日设定第一抽样区间；

将所述显著性水平、平均值、标准偏差及所述第一抽样区间带入置信区间算法，得到所述用户ID的置信区间。

优选地，所述则执行置信区间缩减策略，判断执行置信区间缩减策略次数，根据判断结果执行提取正态分布模型步骤或异常警告操作的步骤进一步包括：

向所述用户ID发送交互信息，其中，所述交互信息用于缩减所述置信区间的第二宽度；

根据所述交互信息结果确定缩减第二宽度的次数；

当所述用户ID的缩减第二宽度的次数累积后大于所述警告次数时，执行所述异常警告操作步骤。

优选地，所述异常警告操作的步骤进一步包括：

判断所述第一字段和所述第二字段的用户ID所在IP地址是否相同，若相同，则执行IP地址封禁操作。

优选地，所述IP地址封禁操作进一步包括：禁止通过所述IP地址的所述用户ID进行登录，并将通过所述IP地址登录的所述用户ID记录至所述数据仓库。

优选地，所述根据所述用户ID的运营日设定第一抽样区间的步骤进一步包括：根据所述用户ID的运营日梯次设定第一抽样区间。

本发明提供一种网站异常流量的监控系统，包括：数据仓库模块、模型生成模块、置信区间生成模块、判断模块、缩减模块和告警模块；

所述数据仓库模块用于提取运营日、用户ID及其访问数据标签，创建运营历史数据并保存；

所述模型生成模块用于提取所述数据仓库模块中所述运营历史数据，并根据所述运营历史数据创建所述用户ID的正态分布模型；

所述置信区间生成模块用于提取所述正态分布模型得出所述用户ID的访问数据均值，并生成所述用户ID的所述正态分布模型的置信区间；

所述判断模块用于判断所述置信区间生成模块生成的置信区间的第一宽度是否满足预定阈值，当所述置信区间的所述第一宽度大于所述预定阈值，则通知所述缩减模块，所述判断模块还用于记录通知所述缩减模块的次数；

所述缩减模块用于按第二宽度缩减所述置信区间的第一宽度；

所述告警模块用于发出警告指示，并封停所述用户ID。

本发明提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现任一项所述的网站异常流量的监控方法步骤。

本发明的有益效果是：

1、本发明所述的网站异常流量的监控方法，可以实现提升用户对平台的好感度，且可以打击平台恶意流量，打击用户之间的恶意竞争，保护消费者的合法权益。

2、本发明所述的网站异常流量的监控方法，可以实现获取用户之前的关系，并将关系提取。

3、本发明所述的网站异常流量的监控方法，可以实现将用户刷单的关系过滤，防止恶意竞争。

4、本发明所述的网站异常流量的监控方法，可以实现通过读取用户的运营历史数据，基于正态分布模型，或者用户的正态分布模型的置信上限和置信下限。

5、本发明所述的网站异常流量的监控方法，可以实现根据置信区间与平台的基准区间进行对比，根据对比结果向可能异常的用户发送提醒。

6、本发明所述的网站异常流量的监控方法，可以实现当确定用户刷单，将用户经常登录IP禁用。

7、本发明所述的网站异常流量的监控系统，可以实现创建用户的运营历史数据，并根据运营历史数据创建用户的正态分布模型，且根据正态分布模型的置信上下限界定用户的异常行为，当确定用户刷单后，发出告警指示并封停该用户及登录地点。

8、本发明所述的网站异常流量的监控介质，可以实现创建用户的运营历史数据，并根据运营历史数据创建用户的正态分布模型。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例1所述的网站异常流量的监控方法的示意图；

图2是本发明实施例2所述的网站异常流量的监控系统的架构图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等是用于区别不同的对象，而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可包括没有列出的步骤或单元。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，还可以是两个元件内部的连通，可以是无线连接，也可以是有线连接。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

需要说明的是，在本发明的描述中，

ID（Identity document）是身份标识号、

IP（Internet Protocol）是网际互连协议。

实施例1

本发明实施例提供一种网站异常流量的监控方法，请参阅图1，包括以下步骤：

S100、建立数据仓库

步骤S100具体包括：按照运营日、用户ID及其访问数据提取标签，创建并存储运营历史数据至数据仓库；

在网络平台的运营过程中，可以通过调用服务器后台的数据或者实时监控每一个用户ID的历史数据，包括与哪些人发生交流，卖出什么产品，购买什么产品等，每个用户ID都有其对应的标签，且在用户创建成功，或者普通用户转为可以贩卖商品的用户时，需要记录该用户ID的运营日的起始以及持续时间，将关于该用户ID的所有数据命名为运营历史数据，将运营历史数据导入至一个数据仓库中，方便后期维护。

S101、使用图论算法，提取数据仓库内属于用户ID的第一字段；

需要说明的是该第一字段代表的是该用户ID的关于运营的有关数据，为了避免侵犯到用户的正常隐私，将运营数据及聊天数据隔离，因为在一个错综复杂的网络中，无法准确的梳理用户与用户之间的关系，所以通过图论算法，将数据仓库中，属于该用户的第一字段进行剥离。

S102、对比任意用户ID，确定用户ID之间是否存在边；

通过图论算法的边定义，导出与该用户关系最为紧密的用户，按照权重进行排序，因为在刷单时，为了节省时间，刷单者一般都会通过养号，即水评论，点赞等将自己打造成具有真实人格的用户，但是最终，这个刷单者还是会通过这个刷单号向需要刷单的用户输入大量数据，即产生较多的联系，那么我们将该刷单号定义为边，将多个边的第二字段进行筛选，这些部分其实对于一个拥有较多关注人的用户来说杯水车薪。

S103、在数据仓库中提取属于边的第二字段；

所以将此部分先在用户ID中剔除掉，即统一时间点，获取用户ID的第一字段和边的第二字段。

S200、提取正态分布模型

步骤S200具体包括：在数据仓库中提取运营历史数据，根据所述运营历史数据创建用户ID的正态分布模型；

因为我们知道，在一个用户ID买一件产品时，可能因为当前季节、天气等外界因素呈现不同的销售量，但是总体来说，这些数据基本可以满足一个正态分布的曲线；

S201、将第一字段和第二字段根据用户ID的所述运营日执行过滤操作，得到用户ID的基准字段，提取用户ID的平均值μ和标准偏差σ，根据平均值μ得出数学期望，根据数学期望得出正态分布模型。

S300、置信区间获取

步骤S300具体包括：提取正态分布模型得出用户ID的访问数据均值，通过访问数据均值及第一抽样区间得出用户ID的正态分布模型的置信区间；

S301、根据所述运营历史数据设定显著性水平；

显著性水平为置信区间的一个基本的概念，代表符号为α，在绝大多数的数学模型构造中，α一般会取值0.05，所以本发明实施例也可以将α取值为0.05，也可以根据数据的多少将α取值为0.1。

S302、计算基准字段的平均值和标准偏差；

对于给准的一组数据，其平均值和标准偏差很容易得出，本发明使用python或者其他的具有数学计算功能的软件进行平均值μ和标准偏差σ的求解，即得出了运营日和产品的贩卖量的一个基本函数关系。

S303、根据用户ID的运营日设定第一抽样区间；

需要说明的是，因为每一个用户ID的运营日我们都可以得出，所以第一抽样区间是一个与运营日具有映射关系的函数；

需要说明的是，运营日可以梯次设置，即可以根据用户ID的点击量或者贩卖量进行设定，用户ID的体量越大，则抽查的间隔越短，既可以保护优质用户的运营，又可以提升该优质用户的口碑。

S304、将显著性水平、平均值、标准偏差及所述第一抽样区间带入置信区间算法，得到所述用户ID的置信区间；

根据公式(μ-Ζα/2σ , μ+Ζα/2σ)，我们可以得出用户ID的置信区间。

S400、提取边界并过滤

步骤S400具体包括：判断用户ID的置信区间的第一宽度是否满足预定阈值，当置信区间的第一宽度大于预定阈值，则执行置信区间缩减策略，判断执行置信区间缩减策略次数，根据判断结果执行提取正态分布模型步骤或异常警告操作步骤：

平台基于所有的用户的运营情况，给出最低的预定阈值，该预定阈值圈定了置信区间的最大范围，即点击范围。

S401、向用户ID发送交互信息，其中，交互信息用于缩减所述置信区间的第二宽度；

当执行置信区间缩减策略时，即认为该用户ID可能出现异常，需要平台的客服与用户ID进行沟通，并核实事实，用户ID可以自我陈述事情的经过，经平台的客服决定后，给出该用户ID的相应的惩罚程度，可以是扣分，并在扣分后降低平台对该用户的监管范围，即缩减预定阈值，例如可以扣分1-5，每个用户ID的满分为100，用户ID的最低分为60分，当警告次数多，每一次的分数扣得多，则需要对该用户ID进行停业整顿。

S500、异常警告操作

步骤S500具体包括：因为一个刷单者可能同时刷多个用户ID的点击量，或者商家与卖家即为一人，互相刷关注量与产品的贩卖量，为了避免这种情况，当对用户ID进行停业整顿时，发出警告指示，并判断边是否有与用户ID相同的登录IP，若有，则将该IP封停，且为了日后维权提供证据，将通过该IP登录的用户ID记录至数据仓库。

实施例2

本发明实施例提供一种网站异常流量的监控系统，请参阅图2，包括：数据仓库模块、模型生成模块、置信区间生成模块、判断模块、缩减模块和告警模块；

数据仓库模块用于按照运营日、用户ID及其访问数据提取标签，创建并存储运营历史数据；

在网络平台的运营过程中，数据仓库模块可以通过调用服务器后台的数据或者实时监控每一个用户ID的历史数据，包括与那些人发生交流，卖出什么产品，购买什么产品等，每个用户ID都有其对应的标签，且在用户创建成功，或者普通用户转为可以贩卖商品的用户时，数据仓库模块可以根据需要记录该用户ID的运营日的起始以及持续时间，数据仓库模块将关于该用户ID的所有数据命名为运营历史数据并存储，方便后期维护。

模型生成模块使用图论算法，提取数据仓库内属于用户ID的第一字段；

需要说明的是该第一字段代表的是该用户ID的关于运营的有关数据，为了避免侵犯到用户的正常隐私，将运营数据及聊天数据在数据仓库模块中隔离，因为在一个错综复杂的网络中，无法准确的梳理用户与用户之间的关系，所以通过图论算法，模型生成模块在数据仓库中，将属于该用户的第一字段进行剥离。

模型生成模块用于对比任意用户ID，确定用户ID之间是否存在边；

模型生成模块通过图论算法的边定义，导出与该用户关系最为紧密的用户，按照权重进行排序，因为在刷单时，为了节省时间，刷单者一般都会通过养号，即水评论，点赞等将自己打造成具有真实人格的用户，但是最终，这个刷单者还是会通过这个刷单号向需要刷单的用户输入大量数据，即产生较多的联系，那么我们将该刷单号定义为边，将多个边的第二字段进行筛选，这些部分其实对于一个拥有较多关注人的用户来说杯水车薪。

模型生成模块在数据仓库中提取属于边的第二字段；

所以将此部分先在用户ID中提出掉，即统一时间点，获取用户ID的第一字段和边的第二字段。

模型生成模块在数据仓库中提取运营历史数据，根据所述运营历史数据创建用户ID的正态分布模型；

模型生成模块将第一字段和第二字段根据用户ID的所述运营日执行过滤操作，得到用户ID的基准字段，提取用户ID的平均值μ和标准偏差σ，根据平均值μ得出数学期望，根据数学期望得出正态分布模型。

置信区间生成模块提取正态分布模型得出用户ID的访问数据均值，通过访问数据均值及第一抽样区间得出用户ID的正态分布模型的置信区间；

判断模块用于根据所述运营历史数据设定显著性水平；

置信区间生成模块计算基准字段的平均值和标准偏差；

判断模块根据用户ID的运营日设定第一抽样区间；

置信区间生成模块将显著性水平、平均值、标准偏差及所述第一抽样区间带入置信区间算法，根据公式(μ-Ζα/2σ , μ+Ζα/2σ)，得到所述用户ID的置信区间；

判断模块判断用户ID的置信区间的第一宽度是否满足预定阈值，当置信区间的第一宽度大于预定阈值，则执行置信区间缩减策略，判断执行置信区间缩减策略次数，根据判断结果执行提取正态分布模型步骤或异常警告操作步骤：

判断模块基于平台所有的用户的运营情况，给出最低的预定阈值，该预定阈值圈定了置信区间的最大范围，即点击范围。

告警模块向用户ID发送交互信息，其中，交互信息用于缩减所述置信区间的第二宽度；

当缩减模块执行置信区间缩减策略时，即认为该用户ID可能出现异常，需要平台的客服与用户ID进行沟通，并核实事实，用户ID可以自我陈述事情的经过，经平台的客服决定后，给出该用户ID的相应的惩罚程度，可以是扣分，并在扣分后降低平台对该用户的监管范围，缩减模块即缩减预定阈值，例如可以扣分1-5，每个用户ID的满分为100，用户ID的最低分为60分，当警告次数多，每一次的分数扣得多，告警模块需要通知该用户ID进行停业整顿。

因为一个刷单者可能同时刷多个用户ID的点击量，或者商家与卖家即为一人，互相刷关注量与产品的贩卖量，为了避免这种情况，当对用户ID进行停业整顿时，告警模块发出警告指示，并判断边是否有与用户ID相同的登录IP，若有，则将该IP封停，且为了日后维权提供证据，将通过该IP登录的用户ID记录至数据仓库。

实施例3

本发明还提供了一种计算机可读存储介质，计算机可读存储介质存储有被处理器执行时执行如上方法的计算机程序。

最后需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，监控软件的方法的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，程序的存储介质可为磁碟、光盘、只读存储记忆体(ROM）或随机存储记忆体(RAM）等。上述计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

此外，根据本发明实施例公开的方法还可以被实现为由处理器执行的计算机程序，该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被处理器执行时，执行本发明实施例公开的方法中限定的上述功能。

此外，上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。

此外，应该明白的是，本文的计算机可读存储介质(例如，存储器）可以是易失性存储器或非易失性存储器，或者可以包括易失性存储器和非易失性存储器两者。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能，但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种网站异常流量的监控方法，其特征在于，包括以下步骤：

异常警告操作：发出警告指示，并禁止使用所述用户ID；

所述建立数据仓库的步骤进一步包括：提取所述数据仓库内属于所述用户ID的第一字段；使用图论算法，对比任意所述用户ID的所述第一字段，确定所述用户ID的所述第一字段之间是否存在边；在所述数据仓库中提取属于所述边的第二字段；

所述根据所述运营历史数据创建所述用户ID的正态分布模型的步骤进一步包括：将所述第一字段和所述第二字段根据所述用户ID的所述运营日执行过滤操作，得到所述用户ID的基准字段；所述第一字段代表所述用户ID的关于运营的有关数据；

所述置信区间获取步骤进一步包括：根据所述运营历史数据设定显著性水平；计算所述基准字段的平均值和标准偏差；根据所述用户ID的运营日设定第一抽样区间；将所述显著性水平、平均值、标准偏差及所述第一抽样区间带入置信区间算法，得到所述用户ID的置信区间；

所述则执行置信区间缩减策略，判断执行置信区间缩减策略次数，根据判断结果执行提取正态分布模型步骤或异常警告操作的步骤进一步包括：向所述用户ID发送交互信息，其中，所述交互信息用于缩减所述置信区间的第二宽度；根据所述交互信息结果确定缩减第二宽度的次数；当所述用户ID的缩减第二宽度的次数累积后大于所述警告次数时，执行所述异常警告操作步骤；

所述根据所述用户ID的运营日设定第一抽样区间的步骤进一步包括：根据所述用户ID的运营日梯次设定第一抽样区间；所述梯次设定，是指根据所述用户ID的点击量或贩卖量设定所述第一抽样区间，所述用户ID的体量越大，所述第一抽样区间越短。

2.根据权利要求1所述的网站异常流量的监控方法，其特征在于：所述异常警告操作的步骤进一步包括：

3.根据权利要求2所述的网站异常流量的监控方法，其特征在于：所述IP地址封禁操作进一步包括：禁止通过所述IP地址的所述用户ID进行登录，并将通过所述IP地址登录的所述用户ID记录至所述数据仓库。

4.基于权利要求1所述网站异常流量的监控方法的网站异常流量的监控系统，其特征在于，包括：数据仓库模块、模型生成模块、置信区间生成模块、判断模块、缩减模块和告警模块；

所述告警模块用于发出警告指示，并封停所述用户ID。

5.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现权利要求1-3任一项所述的网站异常流量的监控方法步骤。