CN103605714A

CN103605714A - 网站异常数据的识别方法及装置

Info

Publication number: CN103605714A
Application number: CN201310566714.4A
Authority: CN
Inventors: 张明波; 余德乐; 王静芬; 杨韬; 王晓群
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2013-11-14
Filing date: 2013-11-14
Publication date: 2014-02-26
Anticipated expiration: 2033-11-14
Also published as: CN103605714B

Abstract

本发明公开了一种网站异常数据的识别方法及装置。其中，该方法包括：在通过每个网络渠道多次访问网页之后，获取每个网络渠道对应的多个访问停留时间；分别对每个网络渠道对应的多个访问停留时间进行统计计算，生成每个网络渠道的波动值；对各个网络渠道的波动值进行筛选处理，得到产生异常数据的网络渠道。通过本发明，能够提高确定发生异常流量数据的网络渠道的效率、减少了人力成本且准确性较好。

Description

网站异常数据的识别方法及装置

技术领域

本发明涉及计算机互联网领域，具体而言，涉及一种网站异常数据的识别方法及装置。

背景技术

随着互联网技术的发展，网民数量的急剧增加，互联网日益成为人们生活中最重要的媒体，互联网媒体数据的推广随之快速发展。媒体数据（例如广告）的推手越来越重视互联网媒体的广告投放，因为相对于传统广告，网络广告具有覆盖率广，精准度高，形式多样化的优点，而且可以借助于技术手段来实现智能化精准营销，通过对网民数据的追踪、挖掘、分析，可以对受众群体进行时间、地域、频次、兴趣、人口特征等方面的精准定向。网络广告在发行传播上的成本优势。相对于传统的纸质广告，网络广告在其传播过程中不需要任何其他材料等造成的成本问题，而且制作也相对方便快捷。同时相比较于电视广告，网络广告费用将会优惠很多，同时效果也很突出。

互联网的先进技术在给网络广告诸多优点的同时，也带来一些负面影响，点击作弊便是其中之一，点击作弊是伴着互联网的普及发展起来的，早期主要表现在通过一些自动运行的程序来“提高”网站的访问量，现在则是针对一些提供点击付费的广告网站，成为“网络赚钱”的手段。

对于广告主而言，如果某个广告渠道存在点击作弊，那就会造成该渠道的表面效果看起来很好，而实际真正有效的用户点击很少，如果该渠道是按点击付费，那就会造成广告花费的巨大损失。即使不是按点击付费，而是包天或包月结算，那这种虚假的营销效果，从长期来看也是对广告主营销费用的浪费。

目前通常采用人工判断的方法进行异常流量数据的分析，主要依靠的是个人经验和判断，由于数据量大，指标较多，很难快速的发现隐藏在海量数据中的异常情况，而且找到了异常数据，也没有非常有力的科学依据做支撑。

目前针对相关技术的通过人工来确定网络渠道发生异常流量数据的方案效率低、准确性差的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术的通过人工来确定网络渠道发生异常流量数据的方案效率低、准确性差的问题，目前尚未提出有效的解决方案，为此，本发明的主要目的在于提供一种网站异常数据的识别方法及装置，以解决上述问题。

为了实现上述目的，根据本发明的一个方面，提供了一种网站异常数据的识别方法，该方法包括：在通过每个网络渠道多次访问网页之后，获取每个网络渠道对应的多个访问停留时间；分别对每个网络渠道对应的多个访问停留时间进行统计计算，生成每个网络渠道的波动值；对各个网络渠道的波动值进行筛选处理，得到产生异常数据的网络渠道。

为了实现上述目的，根据本发明的另一方面，提供了一种网站异常数据的识别装置，该装置包括：获取模块，用于在通过每个网络渠道多次访问网页之后，获取每个网络渠道对应的多个访问停留时间；处理模块，用于分别对每个网络渠道对应的多个访问停留时间进行统计计算，生成每个网络渠道的波动值；筛选模块，用于对各个网络渠道的波动值进行筛选处理，得到产生异常数据的网络渠道。

通过本发明，采用在通过每个网络渠道多次访问网页之后，获取每个网络渠道对应的多个访问停留时间；分别对每个网络渠道对应的多个访问停留时间进行统计计算，生成每个网络渠道的波动值；对各个网络渠道的波动值进行筛选处理，得到产生异常数据的网络渠道，解决了相关技术的通过人工来确定网络渠道发生异常流量数据的方案效率低、准确性差的问题，进而实现了提高确定发生异常流量数据的网络渠道的效率、减少了人力成本且准确性较好的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的网站异常数据的识别方法的流程示意图；

图2是根据本发明实施例的网站异常数据的识别方法的详细流程示意；以及

图3是根据本发明实施例的网站异常数据的识别装置的结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

实施例一：

在其最基本的配置中，图1是根据本发明实施例的网站异常数据的识别方法的流程示意图；图2是根据本发明实施例的网站异常数据的识别方法的详细流程示意。如图1所示，该网站异常数据的识别方法包括如下步骤：

步骤S10，在通过每个网络渠道多次访问网页之后，获取每个网络渠道对应的多个访问停留时间。具体的，该步骤中用户可以选择某一个网络渠道多次访问网页，每次访问当前网页时，系统记录每次访问过程中用户的停留时间，即该网页打开到关闭的延续时间，从而针对一个网络渠道会获取到访问当前网页的多个访问停留时间。

步骤S30，分别对每个网络渠道对应的多个访问停留时间进行统计计算，生成每个网络渠道的波动值。

步骤S50，对各个网络渠道的波动值进行筛选处理，得到产生异常数据的网络渠道。

本申请上述实施例通过对每个网络渠道发生访问网页的过程中，记录的每个网络渠道对应的所有访问时间，然后针对每个网络渠道进行访问停留时间的统计计算，根据计算结果进行筛选，从而筛选得到发生了异常数据的网络渠道，由于从自动化得从数据的统计学特征进行证明，即采用统计学的标准偏差概念来评估流量数据的异常，具有速度快，客观公正的优点，实现了对具有点击作弊嫌疑的渠道流量进行分析和识别，是一种可以从多角度共同验证流量数据是否异常的方法，避免了靠人工经验判断异常的片面性。由此可知，解决了相关技术的通过人工来确定网络渠道发生异常流量数据的方案效率低、准确性差的问题，进而实现了提高确定发生异常流量数据的网络渠道的效率、减少了人力成本且准确性较好的效果。

优选地，如图2所示，本申请上述实施例中，在步骤S30分别对每个网络渠道对应的多个访问停留时间进行统计计算，生成每个网络渠道的波动值之前，方法还可以包括如下步骤：

步骤S201，分别对每个网络渠道的流量数据进行汇总，获取每个网络渠道的网页访问量。

具体的，由于通过各个网络渠道对网站广告进行推送，推送的效果会不同，为了减少计算量，提高计算效率，上述步骤首先将来自各个媒体的网络渠道（以下简称Referer）访问网页时的流量数据进行汇总，即在数据库中对网页访问流量的数据按网络渠道Referer进行求和汇总，计算出各个网络渠道Referer的访问量总数。

步骤S202，对每个网络渠道的网页访问量进行排序。

步骤S203，对排序后的所有网络渠道进行筛选，得到预定数目的网络渠道。例如，该步骤可以按网页访问量从大到小的顺序对网络渠道进行排序，并将网页访问量总数前10%的Referer筛选出来，形成Referer集合R10。

步骤S204，将预定数目的网络渠道保存至临时数据表中，生成需要进行访问停留时间统计计算的网络渠道的集合。该步骤可是实现将步骤S303中R10中每个网络渠道各自对应的所有访问的停留时间都保存到临时数据表TableTemp中。

上述步骤S202和步骤S203实现了将每个网络渠道的网页访问量按照从大到小的顺序进行排序，然后选出网页访问流量最大的前a%的Referer，a的取值范围可以是1-100，可以根据网站流量的大小情况自行确定，优选的可以设置a=10，从而得到筛选后的网络渠道Referer集合R10。

正常网民在点击某个网络渠道Referer的网络媒体数据进入媒体网站后，不同的网民在当前媒体网站的停留时间可以各不相同，即网民在媒体主网站停留的时间具有一定的波动性，需要说明的是，如果是点击作弊的流量，那它在网站停留的时间就几乎没有波动性，所以通过波动性的大小就可以判断流量是否存在异常。另外，此处也可以采用页面访问数作为指标来作为计算的基础。

优选地，本申请上述实施例中，步骤S30分别对每个网络渠道对应的多个访问停留时间进行统计计算，生成每个网络渠道的波动值的步骤包括如下步骤：

获取步骤S301：获取通过第一网络渠道多次访问网页时的访问停留时间，得到第一网络渠道对应的n个访问停留时间。上述步骤实现了在通过第一网络渠道多次访问网页之后，记录每次访问网页时的访问停留时间，获取第一网络渠道对应的多个访问停留时间。

第一计算步骤S302：根据第一网络渠道对应的n个访问停留时间计算得到第一网络渠道对应的第一停留时间平均值

具体的，该步骤可以针对上述步骤S304的TableTemp中记录的网络渠道集合R10中的第一个网络渠道Referer进行停留时间汇总，计算得到第一个网络渠道对应的n个访问停留时间的平均值

第二计算步骤S303：根据如下公式计算得到第一网络渠道对应的波动值SD，

其中，X_i为第一网络渠道对应的i个访问停留时间，

为第一网络渠道对应的停留时间平均值，1≤i≤n，n为自然数。该第二计算步骤使用标准偏差的计算公式计算出R10中第一网络渠道Referer的标准偏差SD。

循环步骤，在没有获取所有网络渠道的波动值的情况下，循环执行获取步骤S301、第一计算步骤S302和第二计算步骤S304，直到得到每个网络渠道对应的波动值为止。通过该循环步骤可以计算得到R10中每个网络渠道Referer的标准偏差SD。

具体的，上述实施步骤采用了计算停留时间波动性的方式来获取网络渠道的波动值，即采用统计学上的标准偏差(Standard Deviation，简称SD)来进行评价，标准偏差的计算公式如下：

其中

是停留时间平均值。使用上述公式可以计算出R10中的各个Referer的停留时间的标准偏差，也就是对各个Referer停留时间的波动程度进行了量化。

本申请上述实施例中，步骤S50根据波动值进行筛选处理，得到产生异常数据的网络渠道的步骤可以包括如下步骤：对各个网络渠道对应的波动值进行排序，得到网络渠道队列；按照预定标准值筛选网络渠道队列的波动值，得到产生异常数据的网络渠道。优选地，，该按照预定标准值筛选网络渠道队列的波动值，得到产生异常数据的网络渠道可以采用提取网络渠道队列中预定数目的网络渠道作为产生异常数据的网络渠道。

具体的，上述步骤可以实现将R10中各个网络渠道Referer的标准偏差值进行从小到大的排序，取出前n个最小SD的Referer即为流量数据有异常的网路渠道，n的取值可以根据需求决定，例如n=5，即其中SD最小的5个Referer就是数据异常的媒体渠道。

由上可知，本申请上述实施例可以实现从数据库中提取海量数据，根据具体情况自动筛选数据，采用科学的统计学方法计算停留时间（或页面访问数）的标准偏差，以此来评估流量的异常情况，更全面更具有说服力。为广告主更好的评估所都投放的广告媒体的效果，提供坚实的基础。

本发明的技术不仅可以采用网站停留时间来进行异常数据分析，还可以采用其它指标来作为评判的依据，例如页面访问数，计算方法与上述步骤相同，只需将页面停留时间替换为页面访问数即可。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例二：

在描述本申请的各实施例的进一步细节之前，将参考图3来描述可用于实现本申请的原理的一个合适的计算体系结构。在以下描述中，除非另外指明，否则将参考由一个或多个计算机执行的动作和操作的符号表示来描述本申请的各实施例。由此，可以理解，有时被称为计算机执行的这类动作和操作包括计算机的处理单元对以结构化形式表示数据的电信号的操纵。这一操纵转换了数据或在计算机的存储器系统中的位置上维护它，这以本领域的技术人员都理解的方式重配置或改变了计算机的操作。维护数据的数据结构是具有数据的格式所定义的特定属性的存储器的物理位置。然而，尽管在上述上下文中描述本申请，但它并不意味着限制性的，如本领域的技术人员所理解的，后文所描述的动作和操作的各方面也可用硬件来实现。

转向附图，其中相同的参考标号指代相同的元素，本申请的原理被示为在一个合适的计算环境中实现。以下描述基于的本申请的实施例，并且不应认为是关于此处未明确描述的替换实施例而限制本申请。

图3示出了可用于这些设备的一个示例计算机体系结构的示意图。出于描述的目的，所绘的体系结构仅为合适环境的一个示例，并非对本申请的使用范围或功能提出任何局限。也不应将该计算系统解释为对图1所示的任一组件或其组合具有任何依赖或需求。

本申请的原理可以使用其它通用或专用计算或通信环境或配置来操作。适用于本申请的众所周知的计算系统、环境和配置的示例包括但不限于，个人计算机、服务器，多处理器系统、基于微处理的系统、小型机、大型计算机、以及包括任一上述系统或设备的分布式计算环境。

图3是根据本发明实施例的网站异常数据的识别装置的结构示意图。如图3所示，该装置可以包括：一获取模块102、一处理模块104和一筛选模块106。

其中，获取模块102，用于在通过每个网络渠道多次访问网页之后，获取每个网络渠道对应的多个访问停留时间；处理模块104，用于分别对每个网络渠道对应的多个访问停留时间进行统计计算，生成每个网络渠道的波动值；筛选模块106，用于对各个网络渠道的波动值进行筛选处理，得到产生异常数据的网络渠道。

本申请上述实施例中的装置还可以包括：汇总模块、第一排序模块、子筛选模块和保存模块。

其中，汇总模块，用于分别对每个网络渠道的流量数据进行汇总，获取每个网络渠道的网页访问量。具体的，由于通过各个网络渠道对网站广告进行推送，推送的效果会不同，为了减少计算量，提高计算效率，上述步骤首先将来自各个媒体的网络渠道（以下简称Referer）访问网页时的流量数据进行汇总，即在数据库中对网页访问流量的数据按网络渠道Referer进行求和汇总，计算出各个网络渠道Referer的访问量总数。

第一排序模块，用于对每个网络渠道的网页访问量进行排序。

子筛选模块，用于对排序后的所有网络渠道进行筛选，得到预定数目的网络渠道。例如，可以按网页访问量从大到小的顺序对网络渠道进行排序，并将网页访问量总数前10%的Referer筛选出来，形成Referer集合R10。

保存模块，用于将预定数目的网络渠道保存至临时数据表中，生成需要进行访问停留时间统计计算的网络渠道的集合。具体的，可以实现将R10中每个网络渠道各自对应的所有访问的停留时间都保存到临时数据表TableTemp中。

优选地，本申请上述实施例中的处理模块可以包括：子获取模块、第一计算模块、第二计算模块和循环步骤模块。

其中，子获取模块，用于获取通过第一网络渠道多次访问网页时的访问停留时间，得到第一网络渠道对应的n个访问停留时间。该模块实现了在通过第一网络渠道多次访问网页之后，记录每次访问网页时的访问停留时间，获取第一网络渠道对应的多个访问停留时间。

第一计算模块，用于根据第一网络渠道对应的n个访问停留时间计算得到第一网络渠道对应的停留时间平均值

具体的，该第一计算模块可以针对上述保存模块中的TableTemp中记录的网络渠道集合R10中的第一个网络渠道Referer进行停留时间汇总，计算得到第一个网络渠道对应的n个访问停留时间的平均值

第二计算模块，用于根据如下公式计算得到第一网络渠道对应的波动值SD，

其中，X_i为第一网络渠道对应的i个访问停留时间，

为第一网络渠道对应的停留时间平均值，1≤i≤n，n为自然数。该第二计算模块使用标准偏差的计算公式计算出R10中第一网络渠道Referer的标准偏差SD。

循环模块，用于循环执行子获取模块、第一计算模块和第二计算模块，得到每个网络渠道对应的波动值。通过该循环模块可以计算得到R10中每个网络渠道Referer的标准偏差SD。

优选地，本申请上述实施例中的筛选模块可以包括：第二排序模块，用于对各个网络渠道对应的波动值进行排序，得到网络渠道队列；选择模块，用于按照预定标准值筛选网络渠道队列的波动值，得到产生异常数据的网络渠道。

优选地，本申请上述实施例中的选择模块可以包括：提取模块，用于提取网络渠道队列中预定数目的网络渠道作为产生异常数据的网络渠道。

从以上的描述中，可以看出，本发明实现了如下技术效果：由于从自动化得从数据的统计学特征进行证明，即采用统计学的标准偏差概念来评估流量数据的异常，具有速度快，客观公正的优点，实现了对具有点击作弊嫌疑的渠道流量进行分析和识别，是一种可以从多角度共同验证流量数据是否异常的方法，避免了靠人工经验判断异常的片面性。由此可知，解决了相关技术的通过人工来确定网络渠道发生异常流量数据的方案效率低、准确性差的问题，进而实现了提高确定发生异常流量数据的网络渠道的效率、减少了人力成本且准确性较好的效果。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网站异常数据的识别方法，其特征在于，包括：

在通过每个网络渠道多次访问网页之后，获取所述每个网络渠道对应的多个访问停留时间；

分别对所述每个网络渠道对应的多个访问停留时间进行统计计算，生成所述每个网络渠道的波动值；

对各个网络渠道的波动值进行筛选处理，得到产生异常数据的网络渠道。

2.根据权利要求1所述的方法，其特征在于，在分别对所述每个网络渠道对应的多个访问停留时间进行统计计算，生成每个网络渠道的波动值之前，所述方法还包括：

分别对每个网络渠道的流量数据进行汇总，获取每个网络渠道的网页访问量；

对每个网络渠道的网页访问量进行排序；

对排序后的所有网络渠道进行筛选，得到预定数目的网络渠道；

将所述预定数目的网络渠道保存至临时数据表中，生成需要进行访问停留时间统计计算的网络渠道的集合。

3.根据权利要求2所述的方法，其特征在于，分别对所述每个网络渠道对应的多个访问停留时间进行统计计算，生成所述每个网络渠道的波动值的步骤包括：

获取步骤：获取通过所述第一网络渠道多次访问网页时的访问停留时间，得到所述第一网络渠道对应的n个访问停留时间；

第一计算步骤：根据所述第一网络渠道对应的n个访问停留时间计算得到所述第一网络渠道对应的停留时间平均值

第二计算步骤：根据如下公式计算得到所述第一网络渠道对应的波动值SD，

其中，所述X_i为所述第一网络渠道对应的i个访问停留时间，所述

为所述第一网络渠道对应的停留时间平均值，1≤i≤n，n为自然数；

循环步骤，循环执行所述获取步骤、第一计算步骤和第二计算步骤，得到每个网络渠道对应的波动值。

4.根据权利要求3所述的方法，其特征在于，根据所述波动值进行筛选处理，得到产生异常数据的网络渠道的步骤包括：

对各个网络渠道对应的波动值进行排序，得到网络渠道队列；

按照预定标准值筛选所述网络渠道队列的波动值，得到所述产生异常数据的网络渠道。

5.根据权利要求4所述的方法，其特征在于，按照预定标准值筛选所述网络渠道队列的波动值，得到所述产生异常数据的网络渠道的步骤包括：提取所述网络渠道队列中预定数目的网络渠道作为所述产生异常数据的网络渠道。

6.一种网站异常数据的识别装置，其特征在于，包括：

获取模块，用于在通过每个网络渠道多次访问网页之后，获取所述每个网络渠道对应的多个访问停留时间；

处理模块，用于分别对所述每个网络渠道对应的多个访问停留时间进行统计计算，生成所述每个网络渠道的波动值；

筛选模块，用于对各个网络渠道的波动值进行筛选处理，得到产生异常数据的网络渠道。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

汇总模块，用于分别对每个网络渠道的流量数据进行汇总，获取每个网络渠道的网页访问量；

第一排序模块，用于对每个网络渠道的网页访问量进行排序；

子筛选模块，用于对排序后的所有网络渠道进行筛选，得到预定数目的网络渠道；

保存模块，用于将所述预定数目的网络渠道保存至临时数据表中，生成需要进行访问停留时间统计计算的网络渠道的集合。

8.根据权利要求7所述的装置，其特征在于，所述处理模块包括：

子获取模块，用于获取通过所述第一网络渠道多次访问网页时的访问停留时间，得到所述第一网络渠道对应的n个访问停留时间；

第一计算模块，用于根据所述第一网络渠道对应的n个访问停留时间计算得到所述第一网络渠道对应的停留时间平均值

第二计算模块，用于根据如下公式计算得到所述第一网络渠道对应的波动值SD，

循环模块，用于循环执行所述子获取模块、第一计算模块和第二计算模块，得到每个网络渠道对应的波动值。

9.根据权利要求8所述的装置，其特征在于，所述筛选模块包括：

第二排序模块，用于对各个网络渠道对应的波动值进行排序，得到网络渠道队列；

选择模块，用于按照预定标准值筛选所述网络渠道队列的波动值，得到所述产生异常数据的网络渠道。

10.根据权利要求9所述的装置，其特征在于，所述选择模块包括：提取模块，用于提取所述网络渠道队列中预定数目的网络渠道作为所述产生异常数据的网络渠道。