CN108053247A

CN108053247A - 一种假量识别模型生成方法、假量识别方法及计算设备

Info

Publication number: CN108053247A
Application number: CN201711348199.7A
Authority: CN
Inventors: 张通; 蔡自彬; 董舒伦
Original assignee: Beijing Knownsec Information Technology Co Ltd
Current assignee: Beijing Knownsec Information Technology Co Ltd
Priority date: 2017-12-15
Filing date: 2017-12-15
Publication date: 2018-05-18
Anticipated expiration: 2037-12-15
Also published as: CN108053247B

Abstract

本发明公开了一种假量识别模型生成方法、假量识别方法及计算设备，假量识别模型生成方法包括：获取各角色标识对应的角色数据；对全部角色数据进行数据统计，以生成各登录过的IP地址对应的第一角色统计数据，以及各登录过的设备对应的第二角色统计数据；计算各角色数据对应的假量IP地址比例和假量设备比例；将各角色数据与其对应的假量IP地址比例和假量设备比例关联，以生成相应的角色扩展数据，对全部角色扩展数据进行聚类处理以获取最优数量个角色簇，并生成各角色簇的角色簇标签；生成各角色扩展数据的角色标签；根据各角色数据及其对应的角色扩展数据关联的角色标签，训练预先构建好的神经网络模型，以生成假量识别模型。

Description

一种假量识别模型生成方法、假量识别方法及计算设备

技术领域

本发明涉及互联网技术领域，特别涉及一种假量识别模型生成方法、假量识别方法及计算设备。

背景技术

对游戏公司而言，当开发的一款游戏上线后，通常会通过广告投放平台来进行游戏推广，则作为受众的用户可基于游戏广告页面的链接来下载游戏，进而完成注册、登录和付费等一系列操作，更有可能成为长期且稳定的游戏玩家。

然而，由于游戏推广具有较大的难度，且成本较高，不少广告投放平台对用户数据进行造假来完成与游戏公司预先约定的活跃用户量，产生了大量不真实的用户数据，此类用户数据一般称为假量数据，这就导致游戏公司难以通过分析用户数据来进行优化游戏本身以及制定相关宣传、投放和推广策略。为了识别出假量数据，现通常是对单个用户的行为逐一识别，但这种对孤立个体的行为进行假量识别的处理，其识别的效率和准确率较低，且人工成本较高。

发明内容

为此，本发明提供一种假量识别模型生成方案，并提出了基于该假量识别模型的假量识别方案，以力图解决或者至少缓解上面存在的问题。

根据本发明的一个方面，提供一种假量识别模型生成方法，适于在计算设备中执行，计算设备与游戏日志服务器通信连接，游戏日志服务器中存储有游戏运营日志，游戏运营日志包括多条角色行为数据，每条角色行为数据关联有其对应的一个角色标识，该方法包括如下步骤：首先，从游戏日志服务器中获取预设的第一时间段内的游戏运营日志，按照角色标识对该游戏运营日志所包括的各角色行为数据进行数据聚合，以获取各角色标识对应的角色数据，每个角色数据包括角色标识、登录过的IP地址列表和登录过的设备列表；对获取到的全部角色数据进行数据统计，以生成各登录过的IP地址对应的第一角色统计数据，以及各登录过的设备对应的第二角色统计数据；根据预设的匹配规则，判断各第一角色统计数据和第二角色统计数据是否为假量数据并进行相应标记，基于标记结果计算各角色数据对应的假量IP地址比例和假量设备比例；将各角色数据与其对应的假量IP地址比例和假量设备比例进行关联，以生成相应的角色扩展数据，对全部角色扩展数据进行聚类处理以获取最优数量个角色簇，并生成各角色簇的角色簇标签；对每一个角色扩展数据，根据该角色扩展数据所属角色簇的角色簇标签，以及其所包括的假量IP地址比例和假量设备比例，生成该角色扩展数据的角色标签；根据各角色数据及其对应的角色扩展数据所关联的角色标签，对预先构建好的神经网络模型进行训练，以生成假量识别模型。

可选地，在根据本发明的假量识别模型生成方法中，角色数据还包括最大同设备角色数、最大同IP地址角色数、游戏时长、最大等级、登录次数、交易次数、付费次数、交流次数、是否随机角色名、是否老旧设备和/或是否来源于广告点击。

可选地，在根据本发明的假量识别模型生成方法中，对获取到的全部角色数据进行数据统计，以生成各登录过的IP地址对应的第一角色统计数据，以及各登录过的设备对应的第二角色统计数据的步骤包括：对每一个登录过的IP地址，将该IP地址关联的一个或多个角色数据进行数据转化，以生成对应的第一角色统计数据；对每一个登录过的设备，将该设备关联的一个或多个角色数据进行数据统计，以生成对应的第二角色统计数据。

可选地，在根据本发明的假量识别模型生成方法中，预设的匹配规则包括IP地址匹配规则和设备匹配规则，根据预设的匹配规则，判断各第一角色统计数据和第二角色统计数据是否为假量数据并进行相应标记的步骤包括：对每一个第一角色统计数据，根据IP地址匹配规则判断该第一角色统计数据是否为假量数据，若是，则将该第一角色统计数据标记为假量IP地址数据；对每一个第二角色统计数据，根据设备匹配规则判断该第二角色统计数据是否为假量数据，若是，则将该第二角色统计数据标记为假量设备数据。

可选地，在根据本发明的假量识别模型生成方法中，基于标记结果计算各角色数据对应的假量IP地址比例和假量设备比例的步骤包括：对每一个角色数据，根据该角色数据包括的登录过的IP地址列表中、各IP地址所对应的第一角色统计数据的标记，计算该角色数据的假量IP地址比例；根据该角色数据包括的登录过的设备列表中、各设备所对应的第二角色统计数据的标记，计算该角色数据的假量设备比例。

可选地，在根据本发明的假量识别模型生成方法中，对全部角色扩展数据进行聚类处理以获取最优数量个角色簇的步骤包括：获取预设的一个或多个中心点数量；对每一个中心点数量，根据该中心点数量对全部角色扩展数据进行聚类处理，以生成与中心点数量相同数量的角色簇，并计算相应的平均轮廓系数；选出平均轮廓系数最大的中心点数量作为最优数量；获取平均轮廓系数最大的中心点数量所对应的各角色簇作为最优数量个角色簇。

可选地，在根据本发明的假量识别模型生成方法中，生成各角色簇的角色簇标签的步骤包括：对每一个角色簇，将该角色簇所包含的全部角色扩展数据进行分析计算；根据分析计算的结果以及预设的角色簇匹配规则，设定该角色簇的角色簇标签。

可选地，在根据本发明的假量识别模型生成方法中，根据该角色扩展数据所属角色簇的角色簇标签，以及其所包括的假量IP地址比例和假量设备比例，生成该角色扩展数据的角色标签的步骤包括：将该角色扩展数据所属角色簇的角色簇标签转化为对应的数值标记；对数值标记、该角色扩展数据所包括的假量IP地址比例和假量设备比例进行加权求和处理；根据加权求和处理的结果与预设的假量标签阈值之间的大小关系，生成该角色扩展数据的角色标签。

可选地，在根据本发明的假量识别模型生成方法中，根据各角色数据及其对应的角色扩展数据所关联的角色标签，对预先构建好的神经网络模型进行训练，以生成假量识别模型的步骤包括：对每一个角色数据，将该角色数据和其对应的角色扩展数据所关联的角色标签，分别作为预先构建好的神经网络模型的输入和输出，并对神经网络模型进行训练；将训练好的神经网络模型作为假量识别模型。

可选地，在根据本发明的假量识别模型生成方法中，还包括：预先构建神经网络模型，神经网络模型以分类器为输出端。

根据本发明的又一个方面，提供一种假量识别方法，适于在计算设备中执行，计算设备与游戏日志服务器通信连接，游戏日志服务器中存储有游戏运营日志，游戏日志服务器中存储有游戏运营日志，游戏运营日志包括多条角色行为数据，每条角色行为数据关联有其对应的一个角色标识，该方法基于假量识别模型生成方法中生成的假量识别模型对游戏中的数据进行假量识别，包括如下步骤：首先，从游戏日志服务器中获取预设的第二时间段内的游戏运营日志；按照角色标识对该游戏运营日志所包括的各角色行为数据进行数据聚合，以获取各角色标识对应的角色数据；将角色数据输入到假量识别模型中进行假量识别；根据识别结果确定该角色数据是否为假量数据。

根据本发明的又一个方面，提供一种计算设备，包括一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序包括用于执行根据本发明的假量识别模型生成方法和/或根据本发明的假量识别方法的指令。

根据本发明的又一个方面，还提供一种存储一个或多个程序的计算机可读存储介质，一个或多个程序包括指令，指令当由计算设备执行时，使得计算设备执行根据本发明的假量识别模型生成方法和/或根据本发明的假量识别方法。

根据本发明的假量识别模型生成的技术方案，首先获取各角色标识对应的角色数据，进而生成相应的各第一角色统计数据和第二角色统计数据，以计算出各角色数据对应的假量IP地址比例和假量设备比例，将各角色数据及其对应的假量IP地址比例和假量设备比例关联以生成相应的角色扩展数据，通过聚合全部角色扩展数据来获取最优数量个角色簇，基于各角色簇的角色簇标签来生成各角色扩展数据的角色标签，以便用于训练预先构建好的神经网络模型来生成假量识别模型。在上述技术方案中，第一角色统计数据和第二角色统计数据分别与登录过的IP地址和登录过的设备对应，对每一个角色数据而言，利用其对应的第一角色统计数据和第二角色统计数据分别计算得出的假量IP地址比例和假量设备比例，表征了该角色数据在IP地址和设备上的造假概率，而将这两个比例作为新的数据维度关联到角色数据后，所生成的角色扩展数据就具备了IP地址和设备的假量信息，再基于各角色扩展数据进行聚类处理，所得到的角色簇能够更好地反映出某一类相近的角色扩展数据的假量信息。进一步的，在生成角色扩展数据的角色标签时，结合了该角色扩展数据所属角色簇的角色簇标签、其所包括的假量IP地址比例和假量设备比例进行处理，提升了角色标签的准确性。而在训练预先构建好的神经网络模型时，分别以各角色数据和其对应的角色扩展数据所关联的角色标签为模型的输入和输出来训练，将机器学习与标签技术相融合，实现了对游戏用户群体的多维度综合分析，最终训练好的模型即可作为假量识别模型使用。

进而，根据本发明的假量识别的技术方案，按照角色标识对游戏运营日志所包括的各角色行为数据进行数据聚合，以获取各角色标识对应的角色数据，将角色数据输入到上述假量识别模型中进行假量识别，最后根据识别结果确定该角色数据是否为假量数据，提高了假量识别的准确率的同时，还降低了人工成本过高带来的风险。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明的一个实施例的计算设备100的示意图；

图2示出了根据本发明一个实施例的假量识别模型生成方法200的流程图；以及

图3示出了根据本发明一个实施例的假量识别方法300的流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1是示例计算设备100的框图。在基本的配置102中，计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。

取决于期望的配置，处理器104可以是任何类型的处理，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用，或者在一些实现中，存储器控制器118可以是处理器104的一个内部部分。

取决于期望的配置，系统存储器106可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个程序122以及程序数据124。在一些实施方式中，程序122可以布置为在操作系统上由一个或多个处理器104利用程序数据124执行指令。

计算设备100还可以包括有助于从各种接口设备(例如，输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156，它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160，其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

计算设备100可以实现为服务器，例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等，也可以实现为小尺寸便携(或者移动)电子设备的一部分，这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。

在一些实施例中，计算设备100被配置为执行根据本发明的假量识别模型生成方法和/或假量识别方法。其中，计算设备100的一个或多个程序122包括用于执行根据本发明的假量识别模型生成方法200和/或假量识别方法300的指令。

图2示出了根据本发明一个实施例的假量识别模型生成方法200的流程图。假量识别模型生成方法200适于在计算设备(例如图1所示的计算设备100)中执行。计算设备100与游戏日志服务器(图1中未示出)通信连接，游戏日志服务器中存储有游戏运营日志，游戏运营日志包括多条角色行为数据，每条角色行为数据关联有其对应的一个角色标识。根据本发明的一个实施例，每条角色行为数据包括其对应的角色标识所关联的游戏角色的各种行为记录，比如最近一次上线时的在线时长、聊天时发送消息数和接收消息数、当前最高游戏角色等级、累计登录次数等等，涉及到游戏角色行为相关的数据均可以纳入角色行为数据中，对此本发明并不进行限制，这些对于了解本发明方案的技术人员来说是可以容易想到的，并且也在本发明的保护范围之内，此处不予以赘述。

如图2所示，方法200始于步骤S210。在步骤S210中，从游戏日志服务器中获取预设的第一时间段内的游戏运营日志，按照角色标识对该游戏运营日志所包括的各角色行为数据进行数据聚合，以获取各角色标识对应的角色数据，每个角色数据包括角色标识、登录过的IP地址列表和登录过的设备列表。其中，登录过的IP地址列表包括该角色标识对应的游戏角色在第一时间段内登录过的所有IP地址，而登录过的设备列表包括该角色标识对应的游戏角色在第一时间段内登录过的所有设备，可通过IMEI(International MobileEquipment Identity，国际移动设备身份码)或IDFA(Identifier for Advertising，广告标示符)来表示相应的设备。

根据本发明的一个实施例，角色数据还包括最大同设备角色数、最大同IP地址角色数、游戏时长、最大等级、登录次数、交易次数、付费次数、交流次数、是否随机角色名、是否老旧设备和/或是否来源于广告点击。具体的，最大同设备角色数是指一个角色标识对应的游戏角色所登录过的设备中、登录过最多游戏角色的设备所登录过的游戏角色的数量，最大同IP地址角色数是指一个角色标识对应的游戏角色所登录过的IP地址中、登录过最多游戏角色的IP地址所登录过的游戏角色的数量。游戏时长为当前游戏角色在第一时间段内累计在线时长，最大等级为当前游戏角色达到的最高级别数，交易次数指当前游戏角色与其他游戏角色交换装备和虚拟金币的行为次数，可分为买入次数和卖出次数，付费次数指用户通过当前游戏角色向游戏公司购买游戏时间或游戏内物资的行为次数，交流次数指当前游戏角色与其他游戏角色进行消息交流的次数，可分为发送消息数、接收消息数和交流频道被提到次数。随机角色名为用户创建游戏角色时系统自动随机生成的角色名称，老旧设备为与最新一代的电子设备相隔数年的设备，之所以将老旧设备纳入角色数据，是因为现今电子设备更新换代很快，几年前的设备往往会很便宜，适合批量购买用于制造假量，广告点击则是指当前游戏角色所关联的用户下载游戏是否源于推广的游戏广告页面等。

在该实施方式中，第一时间段预设为一周，则从游戏服务器中获取最近一周内的游戏运营日志，该游戏运营日志中包括1000条角色行为数据，将各角色行为数据所关联的角色标识依次标记为A1、A2、……、A999和A1000。以角色标识A1为例，将角色标识A1对应的角色行为数据所包括的各种行为记录进行数据聚合，以获取角色标识A1对应的角色数据，将该角色数据记为B1。表1示出了根据本发明的一个实施例的角色标识A1对应的角色数据B1的示例，具体如下所示：

符号	名称或解释	示例数值
			A1	角色标识	1138614176
L_IP	登录过的IP列表	14.123.12.39、14.36.79.122
			L_dev	登录过的设备列表	355065053311001(IMEI)
N_rdev	最大同设备角色数	3
			N_rIP	最大同IP地址角色数	23
T	游戏时长(分钟)	310
			Lv	最大等级	48
N_login	登录次数	14
			N_buy	买入次数	0
N_sale	卖出次数	0
			N_purchase	付费次数	1
N_send	发送消息数	15
			N_recv	接收消息数	7
N_at	交流频道中被提到次数	0
			P_name	是否随机角色名	false
P_dev	是否老旧设备	false
			P_adv	是否来源于广告点击	true

表1

由表1可知，角色标识A1对应的游戏角色只在IMEI为355065053311001的设备上登录过，将该设备记为C1，用户通过设备C1在IP地址14.123.12.39和14.36.79.122下均登录过该游戏角色。关于是否随机角色名、是否老旧设备和是否来源于广告点击这3个参数的数值，一般以false和true来进行表示，false表示否，而true表示是。为便于表述，将角色标识A2～A1000对应的角色数据依次记为B2、B3、……、B999和B1000。

随后，进入步骤S220，对获取到的全部角色数据进行数据统计，以生成各登录过的IP地址对应的第一角色统计数据，以及各登录过的设备对应的第二角色统计数据。根据本发明的一个实施例，可通过如下方式来生成第一角色统计数据和第二角色统计数据。首先，对每一个登录过的IP地址，将该IP地址关联的一个或多个角色数据进行数据转化，以生成对应的第一角色统计数据，再对每一个登录过的设备，将该设备关联的一个或多个角色数据进行数据统计，以生成对应的第二角色统计数据。为方便理解，下面以表1所示的登录过的IP地址列表中的IP地址14.123.12.39为例，进行其对应的第一角色统计数据生成过程的说明，以表1所示的登录过的设备列表中的IMEI为355065053311001的设备为例，进行其对应的第二角色统计数据生成过程的说明。

在该实施方式中，将IP地址14.123.12.39记为L1，在该IP地址下登录过的游戏角色共计3个，对应的角色标识分别是A1、A19和A78，将这3个角色标识分别对应的角色数据B1、B19和B78进行数据统计，以生成IP地址L1对应的第一角色统计数据，将该第一角色统计数据记为C1。实际上，第一角色统计数据可以理解为基于一个登录过的IP地址，对该IP地址关联的角色数据进行统计分析后得到的数理统计类型的数据，以平均数和标准差从IP地址的角度来衡量角色数据。表2示出了根据本发明的一个实施例的登录过的IP地址L1对应的第一角色统计数据C1的示例，具体如下所示：

表2

将IMEI为355065053311001的设备记为M1，在该设备下登录过的游戏角色只有1个，对应的角色标识是A1，将角色标识A1对应的角色数据B1进行数据统计，以生成设备M1对应的第二角色统计数据，将该第二角色统计数据记为D1。实际上，第二角色统计数据可以理解为基于一个登录过的设备，对该设备关联的角色数据进行统计分析后得到的数理统计类型的数据，以平均数和标准差从设备的角度来衡量角色数据。表3示出了根据本发明的一个实施例的登录过的设备M1对应的第二角色统计数据D1的示例，具体如下所示：

表3

在步骤S230中，根据预设的匹配规则，判断各第一角色统计数据和第二角色统计数据是否为假量数据并进行相应标记，基于标记结果计算各角色数据对应的假量IP地址比例和假量设备比例。根据本发明的一个实施例，预设的匹配规则包括IP地址匹配规则和设备匹配规则，其中，IP地址匹配规则为对于N_r>20的IP地址，如果该IP地址对应的第一角色统计数据中的且Lv_σ<3，则将该第一角色统计数据标记为假量IP地址数据，设备匹配规则为对于N′_r>20的设备，如果该设备对应的第二角色统计数据中的且Lv′_σ<3，则将该第二角色统计数据标记为假量设备数据。进而，对每一个第一角色统计数据，根据该IP地址匹配规则判断该第一角色统计数据是否为假量数据，若是，则将该第一角色统计数据标记为假量IP地址数据，对每一个第二角色统计数据，根据该设备匹配规则判断该第二角色统计数据是否为假量数据，若是，则将该第二角色统计数据标记为假量设备数据。在该实施方式中，第一角色统计数据C1被标记为假量IP地址数据，而第二角色统计数据D1并未被标记。值得注意的是，IP地址匹配规则和设备匹配规则的设定并不限于以上内容，可根据实际情况结合第一角色统计数据和第二角色统计数据中的相应参数来预设，这些对于了解本发明方案的技术人员来说是可以容易想到的，并且也在本发明的保护范围之内，此处不予以赘述。

在标记处理完成后，对每一个角色数据，根据该角色数据包括的登录过的IP地址列表中、各IP地址所对应的第一角色统计数据的标记，计算该角色数据的假量IP地址比例，根据该角色数据包括的登录过的设备列表中、各设备所对应的第二角色统计数据的标记，计算该角色数据的假量设备比例。在该实施方式中，对一个角色数据而言，将该角色数据包括的登录过的IP地址列表中、各IP地址所对应的第一角色统计数据作为其关联的第一角色统计数据，将该角色数据包括的登录过的设备列表中、各设备所对应的第二角色统计数据作为其关联的第二角色统计数据。

在计算该角色数据的假量IP地址比例时，先统计该角色数据所关联的第一角色统计数据中、标记为假量IP地址数据的第一角色统计数据的数量，将该数量与该角色数据所关联的第一角色统计数据的数量之商作为相应的假量IP地址比例。而在计算该角色数据的假量设备比例时，先统计该角色数据所关联的第二角色统计数据中、标记为假量设备数据的第二角色统计数据的数量，将该数量与该角色数据所关联的第二角色统计数据的数量之商作为相应的假量设备比例。

对角色数据A1来说，其所包括的登录的IP地址列表中的IP地址分别为14.123.12.39和14.36.79.122，前面已经将IP地址14.123.12.39记为L1，则此处将IP地址14.36.79.122记为L2，IP地址L2所对应的第一角色统计数据记为C2，第一角色统计数据C2没有被标记，则角色数据A1对应的假量IP地址比例为1/2＝0.5。同样的，角色数据A1包括的登录的设备列表中的设备只有M1，而设备M1对应的第二角色统计数据D1没有被标记，则角色数据A1对应的假量设备比例为0/1＝0。

接下来，在步骤S240中，将各角色数据与其对应的假量IP地址比例和假量设备比例进行关联，以生成相应的角色扩展数据，对全部角色扩展数据进行聚类处理以获取最优数量个角色簇，并生成各角色簇的角色簇标签。以角色数据A1为例，将角色数据A1与其对应的假量IP地址比例和假量设备比例进行关联，相当于给角色数据A1再添加2个数据维度，从而生成了相应的角色扩展数据。基于此，对角色数据A2～A1000也进行上述处理，最终得到相应的角色扩展数据，将角色数据A1～A1000对应的角色扩展数据依次记为E1、E2、……、E999和E1000。

对这1000个角色扩展数据，可通过如下方式来进行聚类处理。首先，获取预设的一个或多个中心点数量，对每一个中心点数量，根据该中心点数量对全部角色扩展数据进行聚类处理，以生成与中心点数量相同数量的角色簇，并计算相应的平均轮廓系数，选出平均轮廓系数最大的中心点数量作为最优数量，获取平均轮廓系数最大的中心点数量所对应的各角色簇作为最优数量个角色簇。根据本发明的一个实施例，预设有7个中心点数量，依次为2、3、4、5、6、7和8，对每一个中心点数量，根据该中心点数量对角色扩展数据E1～E1000进行聚类处理，以生成与中心点数量相同数量的角色簇，并计算相应的平均轮廓系数。其中，聚类算法可采用K-means(K均值)算法，而平均轮廓系数的计算可通过SilhouetteCoefficient(轮廓系数)评分算法来实现，当然，本发明对于此并不进行限制。表4示出了根据本发明的一个实施例的聚类结果示例，具体如下所示：

中心点数量	角色簇所包括的角色扩展数据的数量	平均轮廓系数
			2	670、330	0.2792
3	310、300、50、340	0.0511
			4	310、400、100、190	-0.6049
5	200、350、110、210、130	0.8805
			6	170、30、90、210、80、420	-0.7238
7	105、375、20、125、225、70、80	0.1883
			8	75、65、60、280、40、73、17、390	0.5196

表4

如表4所示，最大的平均轮廓系数为0.8805，其对应的中心点数量为5，则将5作为最优数量，获取中心点数量为5时所聚类生成的5个角色簇，将这5个角色簇分别记为F1、F2、F3、F4和F5。

在生成角色簇F1～F5各自对应的角色簇标签时，对每一个角色簇，先将该角色簇所包含的全部角色扩展数据进行分析计算，再根据分析计算的结果以及预设的角色簇匹配规则，设定该角色簇的角色簇标签。根据本发明的一个实施例，以表示角色簇所包括的各角色扩展数据中最大同设备角色数N_rdev的均值，表示基于角色簇包括的各角色扩展数据的最大同设备角色数N_rdev所计算出的标准差，表示角色簇包括的各角色扩展数据的最大同IP地址角色数N_rIP的均值，表示基于角色簇包括的各角色扩展数据的最大同IP地址角色数N_rIP计算出的标准差，表示角色簇包括的各角色扩展数据的最大等级Lv的均值。

在该实施方式中，对角色簇F1～F5中每一个角色簇，将该角色簇所包含的全部角色扩展数据进行分析计算以得出和这5个参数值，再根据这5个参数值和预设的角色簇匹配规则，来设定该角色簇的角色簇标签。表5示出了根据本发明的一个实施例的角色簇匹配规则的示例，具体如下所示：

表5

如表5所示，匹配结果为假量角色簇数据表明角色簇中各角色扩展数据可暂且认定为已造假，匹配结果为正常角色簇数据表明角色簇中各角色扩展数据可暂且认定为未造假，匹配结果为疑似假量角色簇数据表明角色簇中各角色扩展数据可暂且认定造假可能性较高，匹配结果为疑似正常角色簇数据表明角色簇中各角色扩展数据可暂且认定未造假的可能性较高，匹配结果为不确定表明角色簇中各角色扩展数据暂且无法确定是否有造假。基于此，分别将角色簇F1～F5所对应的和与表5中的各匹配条件依次进行匹配，将相应的匹配结果作为相应的角色簇标签。最终，得到角色簇F1～F5的角色簇标签依次为正常角色簇数据、假量角色簇数据、不确定、疑似假量角色簇数据和疑似正常角色簇数据。

在生成各角色簇的角色簇标签后，进入步骤S250，对每一个角色扩展数据，根据该角色扩展数据所属角色簇的角色簇标签，以及其所包括的假量IP地址比例和假量设备比例，生成该角色扩展数据的角色标签。根据本发明的一个实施例，可通过如下方式来生成各角色扩展数据的角色标签。首先，将该角色扩展数据所属角色簇的角色簇标签转化为对应的数值标记，再对该数值标记、该角色扩展数据所包括的假量IP地址比例和假量设备比例进行加权求和处理，根据加权求和处理的结果与预设的假量标签阈值之间的大小关系，生成该角色扩展数据的角色标签。表6示出了根据本发明的一个实施例的角色簇标签与数值标记之间对应关系的示例，具体如下所示：

角色簇标签	数值标记
		假量角色簇数据	1
正常角色簇数据	0
		疑似假量角色簇数据	0.8
疑似正常角色簇数据	0.2
		不确定	0.5

表6

在该实施方式中，以角色扩展数据E1为例，其所属角色簇为角色簇F1，而角色簇F1的角色簇标签为正常角色簇数据，则由表6可知角色簇F1对应的数值标记为0。而角色扩展数据E1所包括的假量IP地址比例为0.5，假量设备比例为0，假量标签阈值预设为0.6，当数值标记、假量IP地址比例和假量设备比例的权重依次为0.3、0.2和0.5时，对角色扩展数据E1对应的数值标记、所包括的假量IP地址比例和假量设备比例进行加权求和处理的结果为0.3×0+0.2×0.5+0.5×0＝0.1，小于假量标签阈值，进而将角色扩展数据E1的角色标签设置为正常数据。倘若加权求和处理的结果不小于预设的假量标签阈值，则角色扩展数据的角色标签相应地设置为假量数据。

值得注意的是，角色簇匹配规则、角色簇标签与数值标记之间的对应关系、数值标记、假量IP地址比例和假量设备比例的权重以及假量标签阈值可参照实际情况来具体设定，本发明并不进行限制。比如，数值标记、假量IP地址比例和假量设备比例的权重可先根据经验值确定，在积累有足够数量的角色标签数据后，根据这些角色标签数据计算F1分数，取F1分数最高时的权重值，且保证数值标记、假量IP地址比例和假量设备比例的权重之和为1。同样的，对于假量标签阈值，则通过是对这些角色标签数据计算准确率和召回率，然后由准确率和召回率这两个指标的平衡过程中选取符合业务倾向的值。

最后，执行步骤S260，根据各角色数据及其对应的角色扩展数据所关联的角色标签，对预先构建好的神经网络模型进行训练，以生成假量识别模型。考虑到神经网络模型需要提前搭建，根据本发明的一个实施例，在步骤S260之前还需要预先构建神经网络模型，该神经网络模型以分类器为输出端。在该实施方式中，预先构建好的神经网络模型可以为一个基于卷积神经网络的深度学习模型，作为该神经网络模型的输出端的分类器为一个二分类器，用于对输入的角色数据进行分类识别，以确定该角色数据为假量数据还是正常数据。关于神经网络模型的构建过程，可参照卷积神经网络的生成以及参数设置的相关技术方案，或者其他相适应的神经网络模型亦可，本发明对于神经网络模型的具体结构并不作特殊限制。在构建好神经网络模型后，开始对其进行训练，具体的，对每一个角色数据，将该角色数据和其对应的角色扩展数据所关联的角色标签，分别作为预先构建好的神经网络模型的输入和输出，并对该神经网络模型进行训练，将训练好的神经网络模型作为假量识别模型。在该实施方式中，以角色数据A1为例，将角色数据A1作为神经网络模型的输入，角色数据A1对应的角色扩展数据E1所关联的角色标签作为神经网络模型的输出，对该神经网络模型进行训练，则根据角色数据A2～A1000及其对应的角色扩展数据E2～E1000所关联的角色标签，分别对该神经网络模型进行训练的过程亦是如此，此处不再赘述。最终，将训练好的神经网络模型作为假量识别模型以待后续使用。

图3示出了根据本发明一个实施例的假量识别方法300的流程图。假量识别方法300适于在计算设备(例如图1所示的计算设备100)中执行，基于假量识别模型生成方法中、所生成的假量识别模型对游戏中的数据进行假量识别。计算设备100与游戏日志服务器(图1中未示出)通信连接，游戏日志服务器中存储有游戏运营日志，游戏运营日志包括多条角色行为数据，每条角色行为数据关联有其对应的一个角色标识。关于角色行为数据，可参照方法200中的相关内容，此处不予以赘述。

如图3所示，方法300始于步骤S310。在步骤S310中，从游戏日志服务器中获取预设的第二时间段内的游戏运营日志。根据本发明的一个实施例，第二时间段预设为一周，则从游戏服务器中获取最近一周内的游戏运营日志，该游戏运营日志中包括500条角色行为数据，将各角色行为数据所关联的角色标识依次标记为G1、G2、……、G499和G500。

随后，进入步骤S320，按照角色标识对该游戏运营日志所包括的各角色行为数据进行数据聚合，以获取各角色标识对应的角色数据。根据本发明的一个实施例，以角色标识G1为例，将角色标识G1对应的角色行为数据所包括的各种行为记录进行数据聚合，以获取角色标识G1对应的角色数据，将该角色数据记为H1。关于角色数据的生成及其所包括的内容，可参见方法200中步骤S210的相关处理过程，此处不予以赘述。

接下来，在步骤S330中，将该角色数据输入到假量识别模型中进行假量识别。根据本发明的一个实施例，将角色数据H1输入到方法200中所生成的假量识别模型中进行假量识别，得到作为假量识别模型的输出端的分类器所输出的、与角色数据H1对应的角色标签为假量数据。

最后，执行步骤S340，根据识别结果确定该角色数据是否为假量数据。根据本发明的一个实施例，角色数据H1对应的角色标签为假量数据，则可确定该角色数据为假量数据。参照对角色标识G1所对应的角色数据H1的识别过程，对角色标识G2～G500所对应的499个角色数据分别进行假量识别，以确定各角色数据是否为假量数据。

现有的假量识别方法通常是对单个用户的行为逐一识别，但这种对孤立个体的行为进行假量识别的处理，其识别的效率和准确率较低，且人工成本较高。根据本发明实施例的假量识别模型生成的技术方案，首先获取各角色标识对应的角色数据，进而生成相应的各第一角色统计数据和第二角色统计数据，以计算出各角色数据对应的假量IP地址比例和假量设备比例，将各角色数据及其对应的假量IP地址比例和假量设备比例关联以生成相应的角色扩展数据，通过聚合全部角色扩展数据来获取最优数量个角色簇，基于各角色簇的角色簇标签来生成各角色扩展数据的角色标签，以便用于训练预先构建好的神经网络模型来生成假量识别模型。在上述技术方案中，第一角色统计数据和第二角色统计数据分别与登录过的IP地址和登录过的设备对应，对每一个角色数据而言，利用其对应的第一角色统计数据和第二角色统计数据分别计算得出的假量IP地址比例和假量设备比例，表征了该角色数据在IP地址和设备上的造假概率，而将这两个比例作为新的数据维度关联到角色数据后，所生成的角色扩展数据就具备了IP地址和设备的假量信息，再基于各角色扩展数据进行聚类处理，所得到的角色簇能够更好地反映出某一类相近的角色扩展数据的假量信息。进一步的，在生成角色扩展数据的角色标签时，结合了该角色扩展数据所属角色簇的角色簇标签、其所包括的假量IP地址比例和假量设备比例进行处理，提升了角色标签的准确性。而在训练预先构建好的神经网络模型时，分别以各角色数据和其对应的角色扩展数据所关联的角色标签为模型的输入和输出来训练，将机器学习与标签技术相融合，实现了对游戏用户群体的多维度综合分析，最终训练好的模型即可作为假量识别模型使用。

进而，根据本发明实施例的假量识别的技术方案，按照角色标识对游戏运营日志所包括的各角色行为数据进行数据聚合，以获取各角色标识对应的角色数据，将角色数据输入到上述假量识别模型中进行假量识别，最后根据识别结果确定该角色数据是否为假量数据，提高了假量识别的准确率的同时，还降低了人工成本过高带来的风险。

A8.如A1-7中任一项所述的方法，所述根据该角色扩展数据所属角色簇的角色簇标签，以及其所包括的假量IP地址比例和假量设备比例，生成该角色扩展数据的角色标签的步骤包括：

将该角色扩展数据所属角色簇的角色簇标签转化为对应的数值标记；

对所述数值标记、该角色扩展数据所包括的假量IP地址比例和假量设备比例进行加权求和处理；

根据加权求和处理的结果与预设的假量标签阈值之间的大小关系，生成该角色扩展数据的角色标签。

A9.如A1-8中任一项所述的方法，所述根据各角色数据及其对应的角色扩展数据所关联的角色标签，对预先构建好的神经网络模型进行训练，以生成假量识别模型的步骤包括：

对每一个角色数据，将该角色数据和其对应的角色扩展数据所关联的角色标签，分别作为预先构建好的神经网络模型的输入和输出，并对所述神经网络模型进行训练；

将训练好的神经网络模型作为假量识别模型。

A10.如A1-9中任一项所述的方法，还包括：

预先构建神经网络模型，所述神经网络模型以分类器为输出端。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组间可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组间组合成一个模块或单元或组间，以及此外可以把它们分成多个子模块或子单元或子组间。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明的假量识别模型生成方法和/或假量识别方法。

以示例而非限制的方式，计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种假量识别模型生成方法，适于在计算设备中执行，所述计算设备与游戏日志服务器通信连接，所述游戏日志服务器中存储有游戏运营日志，所述游戏运营日志包括多条角色行为数据，每条角色行为数据关联有其对应的一个角色标识，所述方法包括步骤：

从所述游戏日志服务器中获取预设的第一时间段内的游戏运营日志，按照角色标识对该游戏运营日志所包括的各角色行为数据进行数据聚合，以获取各角色标识对应的角色数据，每个角色数据包括角色标识、登录过的IP地址列表和登录过的设备列表；

对获取到的全部角色数据进行数据统计，以生成各登录过的IP地址对应的第一角色统计数据，以及各登录过的设备对应的第二角色统计数据；

根据预设的匹配规则，判断各第一角色统计数据和第二角色统计数据是否为假量数据并进行相应标记，基于标记结果计算各角色数据对应的假量IP地址比例和假量设备比例；

将各角色数据与其对应的假量IP地址比例和假量设备比例进行关联，以生成相应的角色扩展数据，对全部角色扩展数据进行聚类处理以获取最优数量个角色簇，并生成各角色簇的角色簇标签；

对每一个角色扩展数据，根据该角色扩展数据所属角色簇的角色簇标签，以及其所包括的假量IP地址比例和假量设备比例，生成该角色扩展数据的角色标签；

根据各角色数据及其对应的角色扩展数据所关联的角色标签，对预先构建好的神经网络模型进行训练，以生成假量识别模型。

2.如权利要求1所述的方法，所述角色数据还包括最大同设备角色数、最大同IP地址角色数、游戏时长、最大等级、登录次数、交易次数、付费次数、交流次数、是否随机角色名、是否老旧设备和/或是否来源于广告点击。

3.如权利要求1或2所述的方法，所述对获取到的全部角色数据进行数据统计，以生成各登录过的IP地址对应的第一角色统计数据，以及各登录过的设备对应的第二角色统计数据的步骤包括：

对每一个登录过的IP地址，将该IP地址关联的一个或多个角色数据进行数据转化，以生成对应的第一角色统计数据；

对每一个登录过的设备，将该设备关联的一个或多个角色数据进行数据统计，以生成对应的第二角色统计数据。

4.如权利要求1-3中任一项所述的方法，预设的匹配规则包括IP地址匹配规则和设备匹配规则，所述根据预设的匹配规则，判断各第一角色统计数据和第二角色统计数据是否为假量数据并进行相应标记的步骤包括：

对每一个第一角色统计数据，根据所述IP地址匹配规则判断该第一角色统计数据是否为假量数据，若是，则将该第一角色统计数据标记为假量IP地址数据；

对每一个第二角色统计数据，根据所述设备匹配规则判断该第二角色统计数据是否为假量数据，若是，则将该第二角色统计数据标记为假量设备数据。

5.如权利要求1-4中任一项所述的方法，所述基于标记结果计算各角色数据对应的假量IP地址比例和假量设备比例的步骤包括：

对每一个角色数据，根据该角色数据包括的登录过的IP地址列表中、各IP地址所对应的第一角色统计数据的标记，计算该角色数据的假量IP地址比例；

根据该角色数据包括的登录过的设备列表中、各设备所对应的第二角色统计数据的标记，计算该角色数据的假量设备比例。

6.如权利要求1-5中任一项所述的方法，所述对全部角色扩展数据进行聚类处理以获取最优数量个角色簇的步骤包括：

获取预设的一个或多个中心点数量；

对每一个中心点数量，根据该中心点数量对全部角色扩展数据进行聚类处理，以生成与中心点数量相同数量的角色簇，并计算相应的平均轮廓系数；

选出平均轮廓系数最大的中心点数量作为最优数量；

获取平均轮廓系数最大的中心点数量所对应的各角色簇作为最优数量个角色簇。

7.如权利要求1-6中任一项所述的方法，所述生成各角色簇的角色簇标签的步骤包括：

对每一个角色簇，将该角色簇所包含的全部角色扩展数据进行分析计算；

根据分析计算的结果以及预设的角色簇匹配规则，设定该角色簇的角色簇标签。

8.一种假量识别方法，适于在计算设备中执行，所述计算设备与游戏日志服务器通信连接，所述游戏日志服务器中存储有游戏运营日志，所述游戏日志服务器中存储有游戏运营日志，所述游戏运营日志包括多条角色行为数据，每条角色行为数据关联有其对应的一个角色标识，所述方法基于权利要求1-7中任一项所述的假量识别模型对游戏中的数据进行假量识别，包括步骤：

从所述游戏日志服务器中获取预设的第二时间段内的游戏运营日志；

按照角色标识对该游戏运营日志所包括的各角色行为数据进行数据聚合，以获取各角色标识对应的角色数据；

将所述角色数据输入到所述假量识别模型中进行假量识别；

根据识别结果确定该角色数据是否为假量数据。

9.一种计算设备，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1-7所述的方法中的任一方法和/或权利要求8所述的方法的指令。

10.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据权利要求1-7所述的方法中的任一方法和/或权利要求8所述的方法。