CN106612202A

CN106612202A - 一种网游渠道刷量的预估判别方法及系统

Info

Publication number: CN106612202A
Application number: CN201510706986.9A
Authority: CN
Inventors: 罗芸骁; 林文佳
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2015-10-27
Filing date: 2015-10-27
Publication date: 2017-05-03

Abstract

本发明公开了一种网游渠道刷量的预估判别方法及系统，所述预估判别方法，包括如下步骤：S101、收集渠道中游戏的日志数据；S102、数据预处理，将所述日志数据导入并进行数据切割、数据抽取及数据清晰处理；S103、针对渠道数据进行监控及异常检测；S104、将判别为异常渠道的相关信息输出。本发明与现有技术对比的有益效果包括：能够避免现有技术的弊端，譬如渠道采用虚拟技术时无法识别刷量行为的弊端等，同时仅通过日志数据及渠道数据的监控和检测等，即可及时、高效的获得判别结果，满足现实的需要。

Description

一种网游渠道刷量的预估判别方法及系统

技术领域

本发明涉及网络游戏技术领域，特别是涉及一种网游渠道刷量的预估判别方法及实现系统。

背景技术

随着移动设备的普及和移动互联网的兴起，手机游戏(以下简称“手游”)大量涌现，手游的推广和下载更多需要借助外部的网络平台及渠道来获取用户。这些平台和渠道的收入和分成往往是由渠道带来的导量、游戏实际的留存、付费等用户行为的数据来决定的，在这个背景下，渠道方出于实际利益的驱动，会出现如下一些欺诈行为，如导虚拟假量、通过机器模拟玩家下载，或恶意刷留存、以得到较高的评级，或通过一些外在的条件、诱导用户做出一些非正常的行为，等等。渠道的这类欺诈行为，对于获取游戏和用户正常的实际行为产生了较大影响，给游戏开发商带来很多非必要的金钱支出。根据以往的情况来看，渠道欺诈行为的发生率是非常高的，几乎在每次的渠道测试中，均会有1～3个渠道发生欺诈的行为；同时，由于手游渠道测试周期较短、同时数据量较大，对这类欺诈行为需要能够进行快速地识别，因此，如何提高数据处理效率、实时、有效地识别渠道刷量这种欺诈行为是非常必要且具有现实意义的。

在PC端游戏时代，运营商刷量获益的一种方法是：通过单台机器多开账户获益，这种情况一般可以根据机器的MAC地址、IP、硬盘地址等来进行监控识别，观察是否具有较高的重合率。这种技术应用到手游的渠道数量中，则是根据用户手机的唯一设备识别符(udid，Unique Device Identifier)、网络ip等来进行识别，计算他们的重合率和出现频次是否超出正常阈值。

现有的一种技术是，判断各个渠道导入量的设备型号、ip地址是否具有较高的重合率，将重合率出现较高的渠道判断为刷量。但目前一些渠道刷量时，能通过技术手段，虚拟出用户的udid、网络ip，在目前的手机游戏技术中，暂时无法识别出这些虚拟的情况，也导致了上述技术的判别方法很难识别出这类型的刷量行为，故准确率较低。

另外一种判断的技术方案，是对每次渠道的行为数据各自进行离线的统计和对比，缺乏统一的指标和监控体系，实际运作中，效率较低，往往不能满足监控的及时性要求。

以上背景技术内容的公开仅用于辅助理解本发明的发明构思及技术方案，其并不必然属于本专利申请的现有技术，在没有明确的证据表明上述内容在本专利申请的申请日已经公开的情况下，上述背景技术不应当用于评价本申请的新颖性和创造性。

发明内容

本发明的主要目的在于提出一种网游渠道刷量的预估判别方法，以解决上述现有技术存在的准确率或效率低，不能满足实际监控需要的技术问题。

为此，本发明提出一种网游渠道刷量的预估判别方法，包括如下步骤：

S101、收集渠道中游戏的日志数据；

S102、数据预处理，将所述日志数据导入并进行数据切割、数据抽取及数据清晰处理；

S103、针对渠道数据监控及异常检测；

S104、将判别为异常渠道的相关信息输出。

优选地，所述预估判别方法还可以具有如下技术特征：

所述步骤S103中，当以下a)～d)中任意一种异常情况发生时，将该渠道的异常信息及异常点输出：

a)目标指标与历史数值的波动检测及阈值监控发现异常；

b)当次测试中不同渠道导量的行为差异识别异常；

c)聚类算法发现异常群体；

d)黑名单渠道行为匹配及监控发现异常。

所述a)中，将历史数值和排名较高、且本次测试该渠道的数据明显高于平均值的情况剔除，不作为异常；而对历史数值和排名较低、但本次测试数据表现排名明显高于平均值的情况列为可疑对象，作为异常。

所述b)中的行为差异包括异常波峰检测和游戏内玩法行为的检测；所述异常波峰检测是将每天划分为预定长度的时间段，在该时间段内监控统计各渠道登录登出的玩家数据，如存在某个时间段的大批量刷数据行为，则判别为行为异常；所述游戏内玩法行为的检测是在线时间短且不参与玩法的渠道玩家判别为行为异常。

所述d)中，根据以往出现过刷量行为的渠道的刷量频率，自适应地降低其报警的阈值、调高将其判断为可疑渠道的概率。

本发明还相应提出一种网游渠道刷量的预估判别系统，包括：

日志数据收集模块，用于收集各渠道手游的日志数据；

数据预处理模块，用于将所述日志数据导入并进行数据切割、数据抽取及数据清晰处理；

监控和检测模块，用于各渠道数据监控及异常检测；

信息输出模块，用于将判别为异常的渠道的信息输出。

优选地，所述预估判别系统还可以具有如下技术特征：

所述监控和检测模块中，当如下a)～d)中任意一个单元发生异常时，将该渠道的异常信息及异常点输出：

a)目标指标与历史数值的波动检测及阈值监控单元；

b)当次测试中不同渠道导量的行为差异识别单元；

c)聚类算法单元；

d)黑名单渠道行为匹配及监控。

所述a)单元中，将历史数值和排名较高、且本次测试该渠道的数据明显高于平均值的情况剔除，不作为异常；而对历史数值和排名较低、但本次测试数据表现排名明显高于平均值的情况列为可疑对象，作为异常。

所述b)单元中的行为差异包括异常波峰检测和游戏内玩法行为的检测；所述异常波峰检测是将每天划分为预定长度的时间段，在该时间段内监控统计各渠道登录登出的玩家数据，如存在某个时间段的大批量刷数据行为，则判别为行为异常；所述游戏内玩法行为的检测是在线时间短且不参与玩法的渠道玩家判别为行为异常。

所述d)单元中，根据以往出现过刷量行为的渠道的刷量频率，自适应地降低其报警的阈值、调高将其判断为可疑渠道的概率。

本发明与现有技术对比的有益效果包括：能够避免现有技术的弊端，譬如渠道采用虚拟技术时无法识别刷量行为的弊端等，同时仅通过日志数据及渠道数据的监控和检测等，即可及时、高效的获得判别结果，满足现实的需要。

附图说明

图1是本发明预估判别方法的一个实现流程框图；

图2是本发明一个具体实施方式的邮件报警页面截图；

图3是本发明一个具体实施方式的渠道刷量判别及实现的流程图；

图4是一个具体实施方式的留存角色等级分布示意图；

图5是一个具体实施方式的每小时各渠道登录角色数；

图6是一个具体实施方式的聚类流程示意图；

图7是一个具体实施方式的玩家登录行为可视化页面截图；

图8是一个具体实施方式的渠道刷量判定方法的流程示意图；

图9是一个具体实施方式的渠道数量判定系统的功能模块图；

图10是一个具体实施方式的数据监控及异常检测模块的功能模块图。

具体实施方式

下面结合具体实施方式并对照附图1-10对本发明作进一步详细说明。应该强调的是，下述说明仅仅是示例性的，而不是为了限制本发明的范围及其应用。

实施例一：

一种网游渠道刷量的预估判别方法，包括如下步骤：

S101、收集各渠道手游的日志数据。

手游数据的收集主要是通过获取服务器的日志数据，比如通过Hadoop分布式集群进行传输和存储，但不限于此，可以采用与此类似的方式进行传输和存储。

S102、数据预处理，将所述日志数据导入并进行数据切割、数据抽取及数据清晰处理。

所谓数据预处理，主要是对各个渠道的数据进行数据切割、数据抽取、数据清洗等处理，将日志数据导入数据库中，并对各类指标数据进行统计，判定是否存在一些导量较少的渠道，并将这些不具备统计意义的渠道数据进行剔除等操作。不具备统计意义的渠道数据指：某些渠道的导量较小，例如对于某游戏A，在8月20日渠道B的新增数量仅有10个，由于新增数量过少、次日留存率等数据的波动会受随机因素较大的影响，这种情况下，不将这些渠道的数据纳入统计。

关于本发明中数据切割、数据抽取和数据清洗的说明：

游戏数据里有很多不同种类的日志，例如包括：登录日志、登出日志、充值日志、资源消耗日志、关卡日志、PVP日志、购买日志等等。数据切割是指根据日志中的关键字，对这些日志进行分类并导入不同的数据表中。数据抽取是指从海量日志中抽取所需要的字段信息，例如，对于玩家的登录日志，分析渠道刷量的时候，需要抽取的字段有：角色id、服务器、在线时长、等级、渠道等，对于一些不需要的字段，例如操作系统版本、设备大小等信息则去掉不做分析。数据清洗是指发现并纠正数据文件中可识别的错误的一道程序，包括检查数据一致性、处理无效值和缺失值等。

经过以上数据处理，可得到如图2所示的如下三类数据：

I、残缺数据(检查相似指标的数据是否一致，如图2中的A003\A004\A005\A006等)；

II、错误数据(检查是否日志是否有问题、如存在数据库无法解析的情况等，如图2中的Z006\Z001等)；

III、重复数据(检查数据波动是否超过预期，如图2中的W001\W002\W003等)；

其中，图2中的第2列为检查判断的条目，最后一列为判断的结果，当结果为False时，说明数据不满足该条件，需要检查数据是否出现异常及解决异常。

S103、各渠道数据监控及异常检测。该步骤中，当以下a)～d)中任意一种异常情况发生时，将该渠道的异常信息及异常点输出：

a)目标指标与历史数值的波动检测及阈值监控发现异常；

b)当次测试中不同渠道导量的行为差异识别异常；

c)聚类算法发现异常群体；

d)黑名单渠道行为匹配及监控发现异常。

以上利用无监督及有监督的数据挖掘算法进行异常数据的检测，并按a)～d)的顺序依次检测各个渠道的情况，当其中任意一个发现异常时，将该渠道的异常信息及异常点输出。所谓异常信息，指的是该渠道的相关信息，如名称、异常日期、该日期新增数量、次日留存数量等；所谓异常点，是指在哪个模块被判断为发生异常的，如本实施例中前文所述的a)、b)c)、d)异常情况所发生的具体模块。

其中，所述a)中，将历史数值和渠道排名较高、且本次测试该渠道的数据明显高于平均值的情况剔除，不作为异常；而对历史数值和渠道排名较低、但本次测试数据表现排名明显高于平均值的情况列为可疑对象，作为异常。所谓渠道排名，是指该渠道的留存相比其余渠道的高低排名。例如某渠道在以往测试中，留存是处于靠后地位的(该渠道用户质量较差)，但此次测试中留存反而较高，则判为异常。所述排名较高、排名较低可设定为：测试渠道在所有渠道中的排名在前5～10％为排名较高，而排名在后5～10％为排名较低。以上的剔除并非必须，但该作法能够较好的减少误判。

所述b)中的行为差异包括异常波峰检测和游戏内玩法行为的检测；所述异常波峰检测是将每天划分为预定长度的时间段，在该时间段内监控统计各渠道登录登出的玩家数据，如存在某个时间段的大批量刷数据行为，则判别为行为异常；所述游戏内玩法行为的检测是在线时间短且不参与玩法的渠道玩家判别为行为异常。所述将每天划分为预定长度的时间段中的预定长度可以是每半小时、每小时或每两个小时等。

所述d)中，根据以往出现过刷量行为的渠道的刷量频率，自适应地降低其报警的阈值、调高将其判断为可疑渠道的概率。也即，各个渠道的报警的阈值设置可以相同或不同，对黑名单渠道可以采取更低阈值，且可以采用根据异常情况发生次数逐步降低阈值(变化的阈值)的方式。

S104、将判别为异常的渠道的信息输出。

该模块输出判定为可疑的渠道的名称、原因及相关的数据，并在结果产出后，自动推送邮件或消息等，及时报警及反馈数据异常。同时，将新增的可疑渠道加入数据监控及异常检测模块的黑名单中，用于完善算法及为下次检测提供参考。

实施例二：

本实施例是结合附图对本发明的进一步详细描述。

如图3所示，是本实施例的渠道刷量判别及实现的流程图(该流程图也可表示为图8的形式)，该方法具体可以包括：

S201、各渠道日志数据收集、传输及存储，譬如登录日志(LoginRole)如下表一：

字段名称	字段含义
		app_channel	渠道
server	服务器
		os_name	操作系统
t_when	日志时间
		role_id	角色id
udid	设备id
		account_id	账号id
ip	ip地址
		role_level	角色等级

表一登入日志包含的字段内容及其对应含义

登出日志(LogoutRole)如下表二：

字段名称	字段含义
		app_channel	渠道
server	服务器
		os_name	操作系统
t_when	日志时间
		role_id	角色id
udid	设备id
		account_id	账号id
ip	ip地址
		role_level	角色等级
online_time	在线时长

表二登出日志包含的字段内容及其对应含义

S202、通过Hadoop分布式集群，计算各个渠道导量的检测指标数据、玩家行为数据等。

所述各个渠道是指游戏中有玩家的安卓(Android)及IOS等渠道，例如：360、小米、UC、bilibili、棱镜、网易SDK、魅族、百度、vivo、华为、oppo、拇指玩、当乐网、豌豆荚等等。

S203、检测各个渠道的数据量，当某渠道数据量过少时，剔除该渠道数据。

例如某些渠道的有效新增设备数量只有十几个玩家，且在全部新增总量中占比非常小，由于数据量较小导致统计值非常容易受到个别行为的较大干扰，则不将这类渠道列入统计范围中，既不将其列为异常刷量渠道、也不将其纳入正常渠道的计算中，而是将此类渠道的数据剔除、不做任何对比和参照。

S204、监控目标指标与历史数值的波动，综合考虑不同渠道之间以及不同游戏之间的对比，判定波动是否超过设定的阈值，输出超过阈值的渠道。

举例说明如下表三：

渠道名

次日留存率

	游戏1	游戏2	游戏3
				A	48.5％	45.3％	29.3％
B	34.8％	31.3％	30.6％
				C	32.7％	36.8％	31.4％
D	31.9％	41.2％	32.5％
				E	15.6％	14.5％	52.5％
F	30.5％	40.5％	30.2％
				G	40.3％	37.5％	27.1％
H	52.0％	40.4％	25.6％
				平均水平	33.2％	37.5％	32.04％

表三一个实施例中示例的各渠道游戏的次日存留率

本实施例的异常值判断方法，可为拉依达准则(即3σ准则)。

3σ原则为：

σ代表标准差，μ代表均值，那么，

数值分布在(μ-σ,μ+σ)中的概率为0.6826；

数值分布在(μ-2σ,μ+2σ)中的概率为0.9544；

当数值不在(μ-2σ,μ+2σ)中的概率不到5％，则此时将其判别为超出阈值。

例如，当游戏3在渠道E中的次日留存率为52.5％，而该游戏的次日留存率的均值为32.04％，标准差为8.4％，则渠道E超出了阈值。

在本实施例中，不仅考虑单次的测试情况，还可综合利用各个渠道的历史情况来判断渠道是否异常，收集存储各个渠道的历史数值和排名，得到各个渠道质量的一个相对稳定的评分和估值，用于修正对该渠道当次的评价。例如，一些本身用户质量较高的渠道，它的评分和估值较高，在本次测试该渠道的数据明显高于平均情况下，若不对其进行修正，可能会超出设定的阈值，导致误判。采用了该方法后，可以对减少优质渠道的误判，同时对历史表现较差的渠道、若此次数据表现排位突然变高，则会将其列为可疑对象。具体而言，例如一些游戏中，在苹果商城(Apple Store)中是需要进行付费下载，使得从该渠道进入的用户质量较高、付费意愿较强，并且由于前期的投入(付费下载)关系，这批玩家的留存会较高于其余渠道(如一般的安卓渠道等)，那么对于这种情况，可将苹果商城该渠道剔除掉。

S205、监控本次测试中，各个渠道导入的用户在行为上统计值的差异，判定行为差异是否超过正常范围，输出行为差异点及异常渠道。

如图4所示，是一个举例的留存角色等级分布示意图，观察不同渠道角色的等级分布可见：异常渠道中，88％的留存角色均停留在1级，而其他渠道该比例仅21％。计算上图两条分布曲线L1、L2的重合度如下表四，发现重合度仅31.7％，两类渠道差异明显。

表四一个实施例中示例的异常渠道和其他渠道的留存角色等级对比

进一步统计各个渠道在不同时间的登录角色数量，如图5所示，可以发现：对于A渠道，导入量在特定时间点突增，但迅速下降，且该时间点均发生在每天的15点左右，上线特征与其他渠道存在明细差异，可认为A渠道异常。

在本实施例中，对不同渠道进入的用户在行为上进行对比和判别，包括：玩家的在线时间点的判别、玩家游戏内行为的判别等。具体可包含：异常波峰检测，即监控各个渠道一天中每个时刻登录登出的玩家数量，判断是否会存在某时间点大批量刷数据的行为；游戏内玩法行为的检测，即对于刷量渠道的玩家，往往具有在线时间短、上线不参与玩法的特征，根据这些特征对玩家进行分类和判别，观察是否有异常离群点。对差异明显的渠道，将其列为可疑对象。

S206、利用聚类数据挖掘算法对用户行为进行聚类，发现及判定异常群体，输出异常群体的行为表现及渠道分布。

如下表五是一个实施例的聚类结果：

表五一个实施例中示例的各类玩家用户行为聚类结果

根据表五显示的聚类结果，A类玩家是具有明显的刷量行为的玩家，B～E类玩家均属于正常群体。

在本发明中的技术主要是针对一些利用外部利益、诱导用户做出非正常行为的刷量方法。在本发明中，通过抽取玩家一段时期内的登陆、在线行为数据，对玩家的上线行为进行聚类分析(如kmeans聚类)和系统层次聚类分析等无监督的数据挖掘方法，按照上线行为对玩家进行分类，可以有效判别该类欺诈行为，即使该类欺诈行为分散在不同的渠道中。

如下图6和图7，分别是上述聚类方法的流程图和聚类结果可视化视图的截图。

S207、对于黑名单记录中以往有过刷量行为的渠道，匹配它们的当期行为与历史行为，若相似度较高，则仍将其此次行为判定为刷量。

例如，渠道A在历史测试中被判别为有过刷量行为，其中有一批刷量行为的列表：account_id(账号id)、udid(设备id)，那么匹配此次测试中登录的account_id与udid是否与刷量行为列表中相同，并输出匹配结果。

在本实施例中，记录以往出现过刷量行为的渠道，以及出现刷量行为的频率，对于一些出现频率高的渠道，自适应地降低其报警的阈值、调高将其判断为可疑渠道的概率，提高算法的查全率。

S208、异常渠道结果推送。

输出判定为可疑的渠道的名称、原因及相关的数据，并在结果产出后，自动推送邮件或消息，及时报警及反馈数据异常情况。

本实施例可以对渠道刷量的行为进行较全面的监测，提高算法的准确率。还可以自适应地根据不同渠道本身的用户质量差异，调整监控的阈值提高查准率和查全率。而且提高了监控的效率，比一般的统计查询方法更快速有效。

实施例三：

本实施例的网游渠道刷量的预估判别系统如图9所示，包括：

日志数据收集模块301，用于收集各渠道手游的日志数据；数据预处理模块302，用于将所述日志数据导入并进行数据切割、数据抽取及数据清晰处理；数据监控及异常检测模块303，用于各渠道数据监控及异常检测；异常输出模块304，用于将判别为异常的渠道的信息输出。

其中：

所述数据监控及异常检测模块303如图10所示，当如下a)～d)中任意一个单元发现异常时，将该渠道的异常信息及异常点输出：

a)目标指标与历史数值的波动检测及阈值监控单元3031；

b)当次测试中不同渠道导量的行为差异识别单元3032；

c)聚类算法单元3033；

d)黑名单渠道行为匹配及监控单元3034。

因本实施例的系统是对应于前述实施例一和实施例二的系统，故相应的技术细节不做详细描述。

本领域技术人员将认识到，对以上描述做出众多变通是可能的，所以实施例仅是用来描述一个或多个特定实施方式。

尽管已经描述和叙述了被看作本发明的示范实施例，本领域技术人员将会明白，可以对其作出各种改变和替换，而不会脱离本发明的精神。另外，可以做出许多修改以将特定情况适配到本发明的教义，而不会脱离在此描述的本发明中心概念。所以，本发明不受限于在此披露的特定实施例，但本发明可能还包括属于本发明范围的所有实施例及其等同物。

Claims

1.一种网游渠道刷量的预估判别方法，其特征在于包括如下步骤：

S101、收集渠道中游戏的日志数据；

S103、针对渠道数据进行监控及异常检测；

S104、将判别为异常渠道的相关信息输出。

2.如权利要求1所述的预估判别方法，其特征在于，所述步骤S103中，当以下a)～d)中任意一种异常情况发生时，将该渠道的异常信息及异常点输出：

a)目标指标与历史数值的波动检测及阈值监控发现异常；

b)当次测试中不同渠道导量的行为差异识别异常；

c)聚类算法发现异常群体；

d)黑名单渠道行为匹配及监控发现异常。

3.如权利要求2所述的预估判别方法，其特征在于：所述a)中，将历史数值和渠道排名较高、且本次测试该渠道的数据明显高于平均值的情况剔除，不作为异常；而对历史数值和排名较低、但本次测试数据表现排名明显高于平均值的情况列为可疑对象，作为异常。

4.如权利要求2所述的预估判别方法，其特征在于：所述步骤b)中的行为差异包括异常波峰检测和游戏内玩法行为的检测；

所述异常波峰检测是将每天划分为预定长度的时间段，在该时间段内监控统计各渠道登录登出的玩家数据，如存在某个时间段的大批量刷数据行为，则判别为行为异常；

所述游戏内玩法行为的检测是在线时间短且不参与玩法的渠道玩家判别为行为异常。

5.如权利要求2所述的预估判别方法，其特征在于：所述步骤d)中，根据以往出现过刷量行为的渠道的刷量频率，自适应地降低其报警的阈值、调高将其判断为可疑渠道的概率。

6.一种网游渠道刷量的预估判别系统，其特征在于包括：

日志数据收集模块，用于收集各渠道手游的日志数据；

监控和检测模块，用于各渠道数据监控及异常检测；

信息输出模块，用于将判别为异常的渠道的信息输出。

7.如权利要求6所述的预估判别系统，其特征在于：所述监控和检测模块中，当如下a)～d)中任意一个单元发生异常时，将该渠道的异常信息及异常点输出：

a)目标指标与历史数值的波动检测及阈值监控单元；

b)当次测试中不同渠道导量的行为差异识别单元；

c)聚类算法单元；

d)黑名单渠道行为匹配及监控。

8.如权利要求7所述的预估判别系统，其特征在于：所述a)单元中，将历史数值和排名较高、且本次测试该渠道的数据明显高于平均值的情况剔除，不作为异常；而对历史数值和排名较低、但本次测试数据表现排名明显高于平均值的情况列为可疑对象，作为异常。

9.如权利要求7所述的预估判别系统，其特征在于：所述b)单元中的行为差异包括异常波峰检测和游戏内玩法行为的检测；

10.如权利要求7所述的预估判别系统，其特征在于：所述d)单元中，根据以往出现过刷量行为的渠道的刷量频率，自适应地降低其报警的阈值、调高将其判断为可疑渠道的概率。