CN110490639A - 一种数据量监控方法、修正方法、系统和计算机设备 - Google Patents

一种数据量监控方法、修正方法、系统和计算机设备 Download PDF

Info

Publication number
CN110490639A
CN110490639A CN201910660781.XA CN201910660781A CN110490639A CN 110490639 A CN110490639 A CN 110490639A CN 201910660781 A CN201910660781 A CN 201910660781A CN 110490639 A CN110490639 A CN 110490639A
Authority
CN
China
Prior art keywords
variable quantity
data volume
unit interval
period
amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910660781.XA
Other languages
English (en)
Inventor
蒋善文
冯允
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing second hand Artificial Intelligence Technology Co.,Ltd.
Original Assignee
Jingshuo Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingshuo Technology Beijing Co Ltd filed Critical Jingshuo Technology Beijing Co Ltd
Priority to CN201910660781.XA priority Critical patent/CN110490639A/zh
Publication of CN110490639A publication Critical patent/CN110490639A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0248Avoiding fraud
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Tourism & Hospitality (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例公开了一种数据量监控方法、修正方法、系统和计算机设备,能够获得准确的阅读数。所述数据量监控方法包括:根据第一单位时间段内的第一数据量变化量确定第二单位时间段的变化量阈值,当第二单位时间段内的第二数据变化量超过所述变化量阈值时,所述第二单位时间段为陡变时间段,根据数据量变化趋势将所述第二单位时间段记录为陡增时间段或陡降时间段;判断连续陡变时间段个数大于或等于预设个数时,确定包含所述连续陡变时间段且包含一组陡增时间段和陡降时间段的区间为陡变区间。本实施例方案结合虚假数据量特点有针对性的进行监控,可以准确的判断出存在虚假数据量的时间区间。

Description

一种数据量监控方法、修正方法、系统和计算机设备
技术领域
本文涉及数据处理技术,尤指一种数据量监控方法、修正方法、系统和计算机设备。
背景技术
在自媒体时代,流量就代表着价值,而刷量则成了引流的捷径。关键意见领袖(KOL)为拥有更多、更准确的产品信息,且为相关群体所接受或信任,并对该群体的购买行为有较大影响力的人。很多KOL是靠买水军或买机器人刷文章的阅读数(文章被浏览的次数)包装出来的。如何去掉水军或者刷量产生的阅读数(去水),计算出文章真实的阅读数是一大难题。大量的虚假KOL,导致品牌广告主在选择KOL进行产品推广时不知道如何去甄别KOL的真假。
以微信为例,目前微信后台可以通过分析文章浏览日志来鉴别真假阅读行为。如果同一用户名或者IP重复多次浏览同一文章,可以判断为刷量行为。但是只有微信平台才能采集浏览日志进行分析,第三方无法拿到此数据,也就无法通过这种方法去计算文章的真实阅读数。还有的方法是使用机器学习方法来预测真实阅读数。通过利用已知文章的真实阅读数作为训练样本,训练模型预测其他文章的真实阅读数。但样本数据通常为非公开数据,获取难度大。当样本的特征值不够时,以及增量趋势不一致时,会导致预测不准确。
发明内容
本申请实施例提供了一种数据量监控方法、修正方法、系统和计算机设备,所述数据量监控方法、系统和计算机设备能够准确的判断出非正常数据,所述数据量修正方法、系统和计算机设备可以获得准确的数据量。
本发明实施例提供了一种数据量监控方法,包括:
根据第一单位时间段内的第一数据量变化量确定第二单位时间段的变化量阈值,当第二单位时间段内的第二数据变化量超过所述变化量阈值时,所述第二单位时间段为陡变时间段,根据数据量变化趋势将所述第二单位时间段记录为陡增时间段或陡降时间段;
判断连续陡变时间段个数大于或等于预设个数时,确定包含所述连续陡变时间段且包含一组陡增时间段和陡降时间段的区间为陡变区间。
本发明实施例还提供了一种数据量修正方法,包括:
确定需要修正的单位时间段的初始数据量变化量,确定所述需要修正的单位时间段的前一单位时间段的数据量变化量为基准数据量变化量;
根据所述基准数据量变化量和初始数据量变化量计算修正后的数据量变化量。
本发明实施例还提供了一种数据量监控系统,包括阈值确定模块、第一判断模块和第二判断模块,其中:
所述阈值确定模块,用于根据第一单位时间段内的第一数据量变化量确定第二单位时间段的变化量阈值;
所述第一判断模块,用于判断当第二单位时间段内的第二数据变化量超过所述变化量阈值时,确定所述第二单位时间段为陡变时间段,根据数据量变化趋势将所述第二单位时间段记录为陡增时间段或陡降时间段;
所述第二判断模块,用于判断连续陡变时间段个数大于或等于预设个数时,确定包含所述连续陡变时间段且包含一组陡增时间段和陡降时间段的区间为陡变区间。
本发明实施例还提供了一种数据量修正系统,包括数据量确定模块和修正模块,其中:
所述数据量确定模块,用于确定需要修正的单位时间段的初始数据量变化量,确定所述需要修正的单位时间段的前一单位时间段的数据量变化量为基准数据量变化量;
所述修正模块,用于根据所述基准数据量变化量和初始数据量变化量计算修正后的数据量变化量。
本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一方法的步骤。
本发明实施例通过定期实时监测数据量,判断是否在短时间内出现数据非正常的陡增和陡降,以此来确定是否存在虚假数据量。本实施例方案结合虚假数据量特点有针对性的进行监控,可以准确的判断出存在虚假数据量的时间区间,以便后续进行有针对性的修正,尤其适用于刷量比较集中的场景。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的其他优点可通过在说明书、权利要求书以及附图中所描述的方案来实现和获得。
附图说明
附图用来提供对本申请技术方案的理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为本发明实施例1方法流程图;
图2为本发明实施例2方法流程图;
图3为本发明实施例3系统结构示意图;
图4为本发明实施例4系统结构示意图;
图5为本发明应用示例中第一篇文章的增量趋势图;
图6为本发明应用示例中第二篇文章的增量趋势图;
图7为本发明应用示例中第一篇文章去水后的增量趋势图;
图8为本发明应用示例中第二篇文章去水后的增量趋势图。
具体实施方式
本申请描述了多个实施例,但是该描述是示例性的,而不是限制性的,并且对于本领域的普通技术人员来说显而易见的是,在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合,并在具体实施方式中进行了讨论,但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外,任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用,或可以替代任何其它实施例中的任何其他特征或元件。
本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合,以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合,以形成另一个由权利要求限定的独特的发明方案。因此,应当理解,在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此,除了根据所附权利要求及其等同替换所做的限制以外,实施例不受其它限制。此外,可以在所附权利要求的保护范围内进行各种修改和改变。
此外,在描述具有代表性的实施例时,说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而,在该方法或过程不依赖于本文所述步骤的特定顺序的程度上,该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的,其它的步骤顺序也是可能的。因此,说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外,针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤,本领域技术人员可以容易地理解,这些顺序可以变化,并且仍然保持在本申请实施例的精神和范围内。
申请人发现刷量行为通常的特点是在短期内阅读量有突然的增加和减少,鉴于此特点,申请人提出如下的数据监控方案以判断是否存在虚假数据量即虚假阅读量。此外在判断出有虚假阅读量后,申请人还提出一种去除虚假数据量的方案,下面分实施例进行详细说明。
实施例1
本实施例描述用于监控虚假数据量的数据量监控方法,监控时每单位时间段统计一次数据量,所述方法如图1所示,包括以下步骤:
步骤11,根据第一单位时间段内的第一数据量变化量确定第二单位时间段的变化量阈值,当第二单位时间段内的第二数据变化量超过所述变化量阈值时,所述第二单位时间段为陡变时间段,根据数据量变化趋势将所述第二单位时间段记录为陡增时间段或陡降时间段;
步骤12,判断连续陡变时间段个数大于或等于预设个数时,确定包含所述连续陡变时间段且包含一组陡增时间段和陡降时间段的区间为陡变区间,即存在虚假数据量的区间。
本实施例方案结合虚假数据量特点有针对性的进行监控,可以准确的判断出存在虚假数据量的时间区间。
在一示例性实施例中,单位时间可以是以分钟为单位,例如可以将5分钟设置为一个单位时间段。在其他实施例中也可以设置单位时间段为其他分钟值,例如3分钟或10分钟等等。在实际应用中,本领域技术人员可根据上述方法应用场景自行确定单位时间段的取值,可根据所监测的电子资料的特性以及刷量行为特点设置合理的监控单位时间段,以保证监控效果的准确。
在一示例性实施例中,在步骤11之前还可以包括一步骤10,判断当第二单位时间段的数据量变化量超过预设异常门限时,再执行步骤11。当数据量过小时可以无需启动上述监控方法。
在一示例性实施例中,根据第一单位时间段内的数据量变化量确定第二单位时间段的变化量阈值可以是采用以下方式:预先根据仿真或者经验值预设数据变化量与变化量倍数的对应关系,所述变化量倍数是指当前单位时间段的数据量变化量相对于前一单位时间段的数据量变化量的倍数,获取第一单位时间段内的第一数据量变化量后,根据第一单位时间段内第一数据量变化量确定与所述第一数据量变化量对应的预设的变化量倍数作为变化量阈值。可设置数据量变化量越小,变化倍数越大,数据量变化量越大,变化倍数越小。以变化量阈值为变化量倍数为例进行说明,以数据量为阅读量为例,数据变化量与变化量倍数的对应关系可以采用以下示例:第n-1个单位时间段的阅读量变化量在50以内,则可设置第n个单位时间段的阅读量变化倍数为7;第n-1个单位时间段的阅读量变化量在50-100之间,则可设置第n个单位时间段的阅读量变化倍数为6;第n-1个单位时间段的阅读量变化量在100-200之间,则可设置第n个单位时间段的阅读量变化倍数为5;第n-1个单位时间段的阅读量变化量在200-300之间,则可设置第n个单位时间段的阅读量变化倍数为4;第n-1个单位时间段的阅读量变化量在除上述范围之外的其他范围时,则可设置第n个单位时间段的阅读量变化倍数为3。详见表1。在上述示例中以变化量阈值为变化量倍数为例进行说明,采用变化量倍数作为变化量阈值可以更贴合实际的变化量情况,更加灵活。在其他示例中,变化量阈值也可以为变化量本身,即直接设定阈值为变化量。
表1
不管是陡增还是陡降,均可采用相同的变化量阈值进行判断,只要满足变化量阈值,则为陡变时间段,根据数据量变化趋势确定是陡增时间段还是陡降时间段,如果数据量变化趋势为递增,则为陡增时间段,如果数据量变化趋势为递减,则为陡降时间段。数据量变化趋势可以根据相邻两个单位时间段的数据总量对比得出。如果当前单位时间段的数据量总量大于前一单位时间段的数据量总量,则变化趋势为递增;反之,如果当前单位时间段的数据量总量小于前一单位时间段的数据量总量,则变化趋势为递减。
以递减变化为例,举例说明如下。例如第n个单位时间段(下称监测点)统计得到的阅读量增量为190,第n+m个单位时间段统计得到的阅读量增量为30,根据表1,由于第n个监测点的增量为190,在100-200之间,因此当前第n+m监测点的变化量倍数应在5以内,由190/30=6.3可见实际变化量倍数超过5,则确定第n+m个单位时间段为陡降时间段。
上述示例中的变化量倍数值是以单位时间段为5分钟为例给出的,单位时间段的变化量倍数与单位时间段时长有关。单位时间段时长越短,单位时间段的变化量倍数越小,反之,单位时间段时长越长,单位时间段的变化量倍数越大。
考虑到如果存在虚假阅读量,通常会先出现陡增再出现陡降,即两者成对出现,该成对出现的陡增和陡降为一组。但是有可能出现的情况是,连续出现多个满足变化量阈值的陡增时间段,和/或,连续出现多个满足变化量阈值的陡降时间段,这些陡增时间段和陡降时间段仍为一组陡增和陡降,在一组陡增和陡降时间段中,陡增时间段在前,陡降时间段在后。例如,第2-10时间段为陡增时间段,第14-16为陡降时间段,则该第2-10时间段以及第14-16时间段为一组陡增和陡降。在一示例性实施例中,如果连续出现多个陡增时间段或者陡降时间段则均进行记录。当连续出现的陡变时间段个数大于预设个数时,才将包含该连续陡变个数的一组陡增和陡降时间段确定为陡变区间,以防止误判。连续出现的陡变时间段可能是陡增时间段,也可能是陡降时间段,或者可能既有陡增时间段也有陡降时间段。例如,预设个数为12(此处仅为举例,本领域技术人员可自行设置,本文不做限定),第2-13时间段为陡增时间段,陡增时间段个数为13-2+1=12,刚好满足预设个数条件,之后第17-19为陡降时间段,则陡变区间为第2时间段到第19时间段,即首个陡增时间段到最后一个陡降时间段的时间区间,这段区间中的数据量均需进行修正。
本发明实施例通过定期实时监测数据量,判断是否在短时间内出现数据非正常的陡增和陡降,以此来确定是否存在虚假数据量。本实施例方案结合虚假数据量特点有针对性的进行监控,可以准确的判断出存在虚假数据量的时间区间,以便后续进行有针对性的修正,尤其适用于刷量比较集中的场景。
本发明实施例还提供了一种数据量修正方法,可以在步骤12后执行,也可以单独执行,详见实施例2。
实施例2
本实施例描述用于修正虚假数据量的数据修正方法,可以在根据实施例1步骤11和步骤12确定存在虚假数据量之后,采用以下方法对陡增时间段与陡降时间段之间的所有数据进行数据修正,如果采用其他方法确定虚假数据量,也不排除可以采用如下方法对数据量进行修正,如图2所示,所述数据量修正方法包括以下步骤。
步骤21,确定需要修正的第四单位时间段的初始数据量变化量,确定所述第四单位时间段的前一单位时间段(以下简称为第三单位时间段)的数据量变化量为基准数据量变化量;
第三单位时间段的数据量变化量由第三单位时间段的数据量减去前一单位时间段的数据量得到。待修正的第四单位时间段的数据量变化量为修正前的实际数据量变化量,由第四单位时间段的实际数据量减去第三单位时间段的数据量得到。
步骤22,根据所述基准数据量变化量和初始数据量变化量计算第四单位时间段的修订后的数据量变化量。
例如,如果数据量变化趋势为递增,则可以采用式1)计算第四单位时间段的数据量变化量即数据量增量:
In-修正=In-1+(In-1+In-初始)%C 式1)
其中,In-修正表示修正后的第四单位时间段的的数据量变化量即数据量增量,In-1表示第三单位时间段的基准数据量变化量,In-初始表示修正前的第四单位时间段的初始数据量变化量,%表示取模,C为一常数,例如为10。
如果数据量变化趋势为递减,则可以采用式2)计算第四单位时间段的数据量变化量即数据量降量:
In-修正=In-1-(In-1-In-初始)%C 式2)
其中,In-修正表示修正后的第四单位时间段的的数据量变化量即数据量降量,In-1表示第三单位时间段的基准数据量变化量,In-初始表示修正前的第四单位时间段的初始数据量变化量,%表示取模,C为一常数,例如为10。
考虑到在正常情况下变化量不会很大,因此根据前一个单位时间段的数据量变化量来估算当前单位时间段的数据量变化量。
修正后的第四单位时间段的数据量变化量可以作为后一单位时间段的基准数据量变化量。按照时间从先到后的顺序,对每个单位时间段的数据量变化量进行修正。
本发明实施例利用正常增量或修正后的增量对异常增量进行修正,从而计算出接近真实的数据量,达到去除刷量数据的目的。
实施例3
本实施例为实现实施例1数据量监控方法的数据量监控系统,如图3所示,包括:
阈值确定模块31,用于根据第一单位时间段内的第一数据量变化量确定第二单位时间段的变化量阈值;
第一判断模块32,用于判断当第二单位时间段内的第二数据变化量超过所述变化量阈值时,确定所述第二单位时间段为陡变时间段,根据数据量变化趋势将所述第二单位时间段记录为陡增时间段或陡降时间段;
第二判断模块33,用于判断连续陡变时间段个数大于或等于预设个数时,确定包含所述连续陡变时间段且包含一组陡增时间段和陡降时间段的区间为陡变区间。
在一示例性实施例中,所述系统还包括触发模块,用于判断第二单位时间段的数据量变化量是否超过预设异常门限,在所述数据量变化量超过预设异常门限时,触发阈值确定模块31根据第一单位时间段内的第一数据量变化量确定第二单位时间段的变化量阈值。
在一示例性实施例中,所述阈值确定模块31可采用以下方式确定第二单位时间段的变化量阈值:根据第一单位时间段内的第一数据量变化量确定对应的变化量倍数作为变化量阈值,所述第一数据量变化量越小,变化量倍数越大,所述第一数据量变化量越大,变化量倍数越小。
具体地,当所述第一数据量变化量小于50,所述阈值确定模块31确定所述变化量倍数为7;当所述第一数据量变化量在50-100之间,所述阈值确定模块31确定所述变化量倍数为6;当所述第一数据量变化量在100-200之间,所述阈值确定模块31确定所述变化量倍数为5;当所述第一数据量变化量在200-300之间,所述阈值确定模块31确定所述变化量倍数为4;当所述第一数据量变化量大于300,所述阈值确定模块31确定所述变化量倍数为3。
在一示例性实施例中,所述第二判断模块33确定所述陡变区间为一组陡增时间段和陡降时间段中首个陡增时间段到最后一个陡降时间段的时间区间。
所述数据量监控系统的实现细节及效果详见实施例1,此处不再赘述。
实施例4
本实施例为实现实施例2数据量修正方法的数据量修正系统,如图4所示,包括:
数据量确定模块41,用于确定需要修正的单位时间段的初始数据量变化量,确定所述需要修正的单位时间段的前一单位时间段的数据量变化量为基准数据量变化量;
修正模块42,用于根据所述基准数据量变化量和初始数据量变化量计算修正后的数据量变化量。
在一示例性实施例中,修正模块42采用以下方式计算修正后的数据量变化量:
如果数据量变化趋势为递增,则修正模块42采用下式计算修正后的数据量变化量:
In-修正=In-1+(In-1+In-初始)%C
如果数据量变化趋势为递减,则修正模块42采用下式计算修正后的数据量变化量:
In-修正=In-1-(In-1-In-初始)%C
其中,In-修正表示修正后的数据量变化量,In-1表示基准数据量变化量,In-初始表示初始数据量变化量,%表示取模,C为一常数。
所述数据量监控系统的实现细节及效果详见实施例2,此处不再赘述。
应用示例
下面以微信为例对上述监控和修正方法进行说明。
利用微信公开的文章阅读数,在一定间隔时间内不断的监控,获取文章的阅读数,通过相邻两个时间点的阅读数计算出一段时间内阅读数的增量。通过观察了上千个样本之后,发现在连续的时间段里,阅读数的增量如果陡增陡降,就是明显的刷量行为。对这种陡增陡降的增量趋势,可以将每一次增量的正负值控制在一定范围内,从而计算出实际的阅读数。
以一个5分钟级监测为例,分别监测了两篇文章。图5和图6分别是两篇文章的阅读数增量趋势,横坐标是每5分钟一个监测点,纵坐标是阅读数增量。
图5为第一篇文章的增量趋势图,阅读数增量趋势正常,不存在刷量行为。图6为第二篇文章的增量趋势图,阅读数增量在209~213这段时间内增量陡增然后陡降,明显存在刷量行为,需要进行去水,计算真实的阅读增量。
如实施例所述,计算逻辑如下:
设置异常值下限为20,当增量在20以内,不管陡增和陡降都是正常的。
设置增量倍数阈值,增量倍数指的是阅读数增量相对于前一个监测点的倍数。前一个监测点增量在50以内,增量倍数阈值为7,前一个监测点增量在100以内,增量倍数阈值为6,前一个监测点增量在200以内,增量倍数阈值为5,前一个监测点增量在300以内,增量倍数阈值为4,其余增量倍数阈值为3。监测点的增量超过倍数阈值,且持续14个监测点后陡降(本例中预设个数为14),因此判断为存在刷量行为。
根据上述计算逻辑对两篇文章的阅读数进行去水,去水结果如图7和图8所示。图7对应图5中文章,因为没有刷量行为,结果一致。图8对应图6中文章,有刷量行为,结果去除掉刷量数据。
将文章阅读数去水后,可以计算出真实的阅读数,真实阅读数能反应出KOL发文的真实影响力,根据文章的真实阅读数结合是否有刷量行为就能去评估KOL质量,用数据为品牌广告主挑选KOL提供支撑。
本示例通过分钟级监测文章阅读数,计算一定时间间隔内阅读数的增量趋势,对增量进行去噪处理达到去除阅读数中刷量数据的目的。可以针对所有有阅读数的文章和帖子。只要社交网络上的帖子和文章公开了阅读数,都可以通过这种方法进行去水,计算出真实的阅读数。从而可以甄选出真实的KOL推荐给品牌广告主。
本发明实施例方法不需要向微信或其他社交网络平台获取文章的真实的阅读数,利用现有的公开阅读数,就可以对阅读数进行修正,计算出真实的阅读数。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。

Claims (12)

1.一种数据量监控方法,其特征在于,所述方法包括:
根据第一单位时间段内的第一数据量变化量确定第二单位时间段的变化量阈值,当第二单位时间段内的第二数据变化量超过所述变化量阈值时,所述第二单位时间段为陡变时间段,根据数据量变化趋势将所述第二单位时间段记录为陡增时间段或陡降时间段;
判断连续陡变时间段个数大于或等于预设个数时,确定包含所述连续陡变时间段且包含一组陡增时间段和陡降时间段的区间为陡变区间。
2.根据权利要求1所述的方法,其特征在于,在根据第一单位时间段内的第一数据量变化量确定第二单位时间段的变化量阈值之前,所述方法还包括:
判断第二单位时间段的数据量变化量是否超过预设异常门限,在所述数据量变化量超过预设异常门限时,再根据第一单位时间段内的第一数据量变化量确定第二单位时间段的变化量阈值。
3.根据权利要求1所述的方法,其特征在于,
所述根据第一单位时间段内的第一数据量变化量确定第二单位时间段的变化量阈值,包括:根据第一单位时间段内的第一数据量变化量确定对应的变化量倍数作为变化量阈值,所述第一数据量变化量越小,变化量倍数越大,所述第一数据量变化量越大,变化量倍数越小;
所述第二单位时间段内的第二数据变化量超过所述变化量阈值,是指:所述第一数据变化量与第二数据变化量的比值超过所述变化量倍数。
4.根据权利要求1或3所述的方法,其特征在于,所述单位时间为5分钟,所述根据第一单位时间段内的第一数据量变化量确定第二单位时间段的变化量阈值,包括:
当所述第一数据量变化量小于50,确定所述变化量倍数为7;当所述第一数据量变化量在50-100之间,确定所述变化量倍数为6;当所述第一数据量变化量在100-200之间,确定所述变化量倍数为5;当所述第一数据量变化量在200-300之间,确定所述变化量倍数为4;当所述第一数据量变化量大于300,确定所述变化量倍数为3。
5.根据权利要求1所述的方法,其特征在于,所述确定包含所述连续陡变时间段且包含一组陡增时间段和陡降时间段的区间为陡变区间,包括:
确定所述陡变区间为一组陡增时间段和陡降时间段中首个陡增时间段到最后一个陡降时间段的时间区间。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定需要修正的单位时间段的初始数据量变化量,确定所述需要修正的单位时间段的前一单位时间段的数据量变化量为基准数据量变化量;
根据所述基准数据量变化量和初始数据量变化量计算修正后的数据量变化量。
7.根据权利要求6所述的方法,其特征在于,所述根据所述基准数据量变化量和初始数据量变化量计算修正后的数据量变化量,包括:
如果数据量变化趋势为递增,则采用下式计算修正后的数据量变化量:
In-修正=In-1+(In-1+In-初始)%C
如果数据量变化趋势为递减,则采用下式计算修正后的数据量变化量:
In-修正=In-1-(In-1-In-初始)%C
其中,In-修正表示修正后的数据量变化量,In-1表示基准数据量变化量,In-初始表示初始数据量变化量,%表示取模,C为一常数。
8.一种数据量修正方法,其特征在于,所述方法包括:
确定需要修正的单位时间段的初始数据量变化量,确定所述需要修正的单位时间段的前一单位时间段的数据量变化量为基准数据量变化量;
根据所述基准数据量变化量和初始数据量变化量计算修正后的数据量变化量。
9.根据权利要求8所述的方法,其特征在于,所述根据所述基准数据量变化量和初始数据量变化量计算修正后的数据量变化量,包括:
如果数据量变化趋势为递增,则采用下式计算修正后的数据量变化量:
In-修正=In-1+(In-1+In-初始)%C
如果数据量变化趋势为递减,则采用下式计算修正后的数据量变化量:
In-修正=In-1-(In-1-In-初始)%C
其中,In-修正表示修正后的数据量变化量,In-1表示基准数据量变化量,In-初始表示初始数据量变化量,%表示取模,C为一常数。
10.一种数据量监控系统,其特征在于,所述系统包括阈值确定模块、第一判断模块和第二判断模块,其中:
所述阈值确定模块,用于根据第一单位时间段内的第一数据量变化量确定第二单位时间段的变化量阈值;
所述第一判断模块,用于判断当第二单位时间段内的第二数据变化量超过所述变化量阈值时,确定所述第二单位时间段为陡变时间段,根据数据量变化趋势将所述第二单位时间段记录为陡增时间段或陡降时间段;
所述第二判断模块,用于判断连续陡变时间段个数大于或等于预设个数时,确定包含所述连续陡变时间段且包含一组陡增时间段和陡降时间段的区间为陡变区间。
11.一种数据量修正系统,其特征在于,所述系统包括数据量确定模块和修正模块,其中:
所述数据量确定模块,用于确定需要修正的单位时间段的初始数据量变化量,确定所述需要修正的单位时间段的前一单位时间段的数据量变化量为基准数据量变化量;
所述修正模块,用于根据所述基准数据量变化量和初始数据量变化量计算修正后的数据量变化量。
12.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7或8-9中任一项所述方法的步骤。
CN201910660781.XA 2019-07-22 2019-07-22 一种数据量监控方法、修正方法、系统和计算机设备 Pending CN110490639A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910660781.XA CN110490639A (zh) 2019-07-22 2019-07-22 一种数据量监控方法、修正方法、系统和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910660781.XA CN110490639A (zh) 2019-07-22 2019-07-22 一种数据量监控方法、修正方法、系统和计算机设备

Publications (1)

Publication Number Publication Date
CN110490639A true CN110490639A (zh) 2019-11-22

Family

ID=68547824

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910660781.XA Pending CN110490639A (zh) 2019-07-22 2019-07-22 一种数据量监控方法、修正方法、系统和计算机设备

Country Status (1)

Country Link
CN (1) CN110490639A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340544A (zh) * 2020-02-25 2020-06-26 上海昌投网络科技有限公司 一种微信公众号是否刷阅读的判断方法及装置
CN111726262A (zh) * 2020-06-15 2020-09-29 广州数说故事信息科技有限公司 一种微信文章阅读数及在看数异常监控方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103546319A (zh) * 2013-10-18 2014-01-29 中国南方电网有限责任公司 网络设备的流量告警方法和系统
CN105897501A (zh) * 2015-12-17 2016-08-24 乐视云计算有限公司 数据监控方法及装置
CN106411947A (zh) * 2016-11-24 2017-02-15 广州华多网络科技有限公司 一种实时阈值自适应流量预警方法及装置
CN109039821A (zh) * 2018-08-21 2018-12-18 平安科技(深圳)有限公司 网络流量监控方法、装置、计算机设备及存储介质
CN109726872A (zh) * 2018-12-29 2019-05-07 华润电力技术研究院有限公司 一种能耗预测方法、装置、存储介质及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103546319A (zh) * 2013-10-18 2014-01-29 中国南方电网有限责任公司 网络设备的流量告警方法和系统
CN105897501A (zh) * 2015-12-17 2016-08-24 乐视云计算有限公司 数据监控方法及装置
CN106411947A (zh) * 2016-11-24 2017-02-15 广州华多网络科技有限公司 一种实时阈值自适应流量预警方法及装置
CN109039821A (zh) * 2018-08-21 2018-12-18 平安科技(深圳)有限公司 网络流量监控方法、装置、计算机设备及存储介质
CN109726872A (zh) * 2018-12-29 2019-05-07 华润电力技术研究院有限公司 一种能耗预测方法、装置、存储介质及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340544A (zh) * 2020-02-25 2020-06-26 上海昌投网络科技有限公司 一种微信公众号是否刷阅读的判断方法及装置
CN111726262A (zh) * 2020-06-15 2020-09-29 广州数说故事信息科技有限公司 一种微信文章阅读数及在看数异常监控方法和系统

Similar Documents

Publication Publication Date Title
CN111092757B (zh) 一种异常数据的检测方法、系统及设备
CN110601900B (zh) 一种网络故障预警方法及装置
CN110058977A (zh) 基于流式处理的监控指标异常检测方法、装置及设备
CN107871190A (zh) 一种业务指标监控方法及装置
CN104090912A (zh) 信息推送方法及装置
CN109873832B (zh) 流量识别方法、装置、电子设备和存储介质
CN110781605B (zh) 广告投放模型测试方法、装置、计算机设备及存储介质
CN106355431A (zh) 作弊流量检测方法、装置及终端
CN106685750A (zh) 系统异常检测方法和装置
CN105335876A (zh) 媒体投放广告的效果追踪方法及装置
CN110490639A (zh) 一种数据量监控方法、修正方法、系统和计算机设备
CN106202280A (zh) 一种信息处理方法及服务器
US20170061484A1 (en) Method for determining next purchase interval for customer and system thereof
CN108805422A (zh) 一种数据评估模型训练系统、数据评估平台和方法
CN110059952A (zh) 车险风险评估方法、装置、设备和存储介质
CN106327230B (zh) 一种异常用户检测方法及设备
CN107402851A (zh) 一种数据恢复控制方法及装置
CN109460613A (zh) 模型裁剪方法及装置
CN114444827B (zh) 一种集群性能的评估方法和装置
CN111784173B (zh) Ab实验数据处理方法、装置、服务器及介质
CN105429792A (zh) 用户行为流量获取方法及装置、用户行为分析方法及系统
CN109726737A (zh) 基于轨迹的异常行为检测方法及装置
CN109726068A (zh) 一种数据检测方法及装置
CN107135199A (zh) 网页后门的检测方法和装置
CN108920326A (zh) 确定系统耗时异常的方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20201228

Address after: A108, 1 / F, curling hall, winter training center, 68 Shijingshan Road, Shijingshan District, Beijing 100041

Applicant after: Beijing second hand Artificial Intelligence Technology Co.,Ltd.

Address before: 100080 area C, 3rd floor, building 2, zone B, Dongsheng Science Park, Zhongguancun, Haidian District, Beijing

Applicant before: ADMASTER TECHNOLOGY (BEIJING) Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20191122

RJ01 Rejection of invention patent application after publication