CN112494952A

CN112494952A - 目标游戏用户的检测方法、装置及设备

Info

Publication number: CN112494952A
Application number: CN202011390590.5A
Authority: CN
Inventors: 唐昊阳; 刘雨林; 郭松林; 阙志伟; 吴超杰; 赵海明
Original assignee: Perfect World Beijing Software Technology Development Co Ltd
Current assignee: Perfect World Beijing Software Technology Development Co Ltd
Priority date: 2020-09-04
Filing date: 2020-09-04
Publication date: 2021-03-16
Anticipated expiration: 2040-09-04
Also published as: CN111773732B; CN111773732A; CN112494952B

Abstract

本申请公开了一种目标游戏用户的检测方法、装置及设备，涉及数据处理技术领域。其中方法包括：首先对待识别用户在游戏中的角色行为特征和角色属性特征进行数值化预处理，得到第一预处理数据；利用随机森林算法，对第一预处理数据进行特征提取，得到第二预处理数据；将第二预处理数据输入到分类模型中，并参照分类模型输出的分类结果，判断待识别用户是否为游戏工作室用户，其中分类模型是基于已判定为游戏工作室用户在游戏中的角色行为特征和角色属性特征进行训练得到的。通过应用本申请方案，可提高游戏工作室用户的检测准确度，不会影响其他正常玩家的游戏体验。降低了人工依赖性，可自动化完成游戏工作室用户的检测。

Description

目标游戏用户的检测方法、装置及设备

本申请是2020年9月4日提交中国专利局、申请号为202010918617.7、名称为“目标游戏用户的检测方法、装置及设备”的中国专利申请的分案申请。

技术领域

本申请涉及数据处理技术领域，尤其是涉及到一种目标游戏用户的检测方法、装置及设备。

背景技术

非法游戏工作室当前充斥于各种网络游戏当中。通过编写程序脚本，制造大批量的“异常机器人”的账号及角色，从而以不正当方式在游戏中获得大量非法财产。破坏了游戏内生态系统的正常运转，侵犯了游戏制作方与游戏玩家的合法权益。

目前，可通过验证码等方式的图灵测试进行机器人检测。例如，游戏系统会在登录时发送某些验证码供玩家识别，检测是否属于机器人；或在游戏历程中，加入验证码进行反外挂机器人检测等。

然而，验证码等图灵测试方式不仅依赖于被测对象的状态，也依赖于检测手段的水平，进而会造成游戏工作室用户的检测准确度较低。例如，在验证码非常难以识别的情况下，即使被测对象是正常玩家，依然会出现验证错误的情况，并且在当前技术手段下，部分验证码可以通过图像识别、收集验证码库的方式进行破解。

发明内容

有鉴于此，本申请提供了一种目标游戏用户的检测方法、装置及设备，主要目的在于改善目前利用验证码等图灵测试方式在检测游戏工作室用户时，会造成游戏工作室用户的检测准确度较低的技术问题。

依据本申请的一个方面，提供了一种目标游戏用户的检测方法，该方法包括：

获取待识别用户在游戏中的角色行为特征和角色属性特征；

对所述角色行为特征和所述角色属性特征进行数值化预处理，得到第一预处理数据；

利用随机森林算法，对所述第一预处理数据进行特征提取，得到第二预处理数据；

将所述第二预处理数据输入到分类模型中，并参照所述分类模型输出的分类结果，判断所述待识别用户是否为游戏工作室用户，其中，所述分类模型是基于已判定为游戏工作室用户在所述游戏中的角色行为特征和角色属性特征进行训练得到的，所述分类模型为决策树模型。

依据本申请的另一方面，提供了一种目标游戏用户的检测装置，该装置包括：

获取模块，用于获取待识别用户在游戏中的角色行为特征和角色属性特征；

第一预处理模块，用于对所述角色行为特征和所述角色属性特征进行数值化预处理，得到第一预处理数据；

第二预处理模块，用于利用随机森林算法，对所述第一预处理数据进行特征提取，得到第二预处理数据；

判断模块，用于将所述第二预处理数据输入到分类模型中，并参照所述分类模型输出的分类结果，判断所述待识别用户是否为游戏工作室用户，其中，所述分类模型是基于已判定为游戏工作室用户在所述游戏中的角色行为特征和角色属性特征进行训练得到的，所述分类模型为决策树模型。

依据本申请又一个方面，提供了一种存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述目标游戏用户的检测方法。

依据本申请再一个方面，提供了一种目标游戏用户的检测设备，包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述目标游戏用户的检测方法。

借由上述技术方案，本申请提供的一种目标游戏用户的检测方法、装置及设备，可根据待识别用户在游戏中的角色行为特征和角色属性特征，并结合已判定为游戏工作室用户在游戏中的角色行为特征和角色属性特征，利用决策树的分类模型准确判别待识别用户是否为游戏工作室用户。与目前利用验证码等图灵测试方式相比，本申请无需下发验证码进行验证，不会被轻易破解，可提高游戏工作室用户的检测准确度，不会影响其他正常玩家的游戏体验。降低了人工依赖性，可自动化完成游戏工作室用户的检测，提高了游戏工作室用户的检测效率。并且判断的参考依据为游戏玩家在游戏中角色的相关特征数据，不涉及玩家个人在现实生活中的隐私数据，进而保护了用户隐私。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出了本申请实施例提供的一种目标游戏用户的检测方法的流程示意图；

图2示出了本申请实施例提供的另一种目标游戏用户的检测方法的流程示意图；

图3示出了本申请实施例提供的一种目标游戏用户的检测装置的结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

为了改善目前利用验证码等图灵测试方式在检测游戏工作室用户时，会造成游戏工作室用户的检测准确度较低的技术问题。本实施例提供了一种目标游戏用户的检测方法，如图1所示，该方法包括：

101、获取待识别用户在游戏中的角色行为特征和角色属性特征。

其中，待识别用户为游戏玩家用户，并且当前需要确定其是否为游戏工作室用户。

角色行为特征主要描述了玩家角色在游戏当中的行为以及账号在游戏平台当中的行为。角色属性特征主要描述了玩家在游戏当中的一些固有属性。示例性的，角色行为特征具体可包括角色周期在线时长、角色周期内上线和/或下线时刻、角色所在账号历史充值信息中的一个或多个，而角色属性特征具体可包括角色等级信息、角色所在服务器ID、角色种族信息、角色职业信息、角色所在账号下的角色数量中的一个或多个。例如，如表1所示，角色周期在线时长可为角色每日在线时长，角色周期内上线时刻可为角色每日上线时刻，角色周期内下线时刻可为角色每日下线时刻，角色所在账号历史充值信息可包括角色所在账号历史累计充值数额、角色所在账号本年度充值数额。

表1

角色行为特征	角色属性特征
		角色每日在线时长	角色等级
角色每日上线时刻	角色所在服务器ID
		角色每日下线时刻	角色种族
角色所在账号历史累计充值数额	角色职业
		角色所在账号本年度充值数额	角色所在账号下的角色数量

其中，角色每日在线时长：指角色每天的在线时长分钟数。工作室角色为了每日获取最大利益，其在线时间往往非常长，并且每日的在线时长数十分固定。角色周期内上/下线时刻标准差：指角色每日登录/登出游戏的时刻。由于游戏工作室角色一般由脚本自动控制，那么其上下线时刻非常机械。标准差越小，说明该角色登录越有规律，则越被容易判断为异常角色(机器人)。角色所在账号历史累计充值数额：指角色所属的账号中，历史共计的充值数额。由于游戏工作室寻求极低成本的牟利，因此很少对账号进行充值行为。角色所在账号本年度充值数额：指角色所属的账号中，本年度共计的充值数额。由于游戏工作室寻求极低成本的牟利，因此很少有对账号的充值行为。

角色等级：指角色在游戏当中的等级数。由于对角色等级提升存在一定难度，工作室可能只对角色提升到适合牟利的等级。角色所在服务器ID：指角色所在游戏的服务器ID编号。由于不同服务器所表现的环境不同、可获取的利润不同，工作室更倾向于选取某些服务器进行牟利。角色种族：指角色在游戏中所选择的种族类型。由于某些获利行为与某些种族匹配度更高，因此工作室更倾向于选择这些种族。角色职业：指角色在游戏中所选择的职业类型。由于某些获利行可以通过某些职业更好地进行，因此工作室更倾向于选择这些职业。角色所在账号下的角色数量：指角色所在的账号，包含的角色数量个数。工作室常使用某一账号创建大量角色，以求低成本大量牟利。

需要说明的是，本实施例方法是基于用户在游戏中的角色特征数据进行游戏工作室用户的检测，而不是用户账号的特征，例如用户账号中的隐私信息(如用户年龄、性别、省份、城市、职业等等)。与现有技术中基于用户账号的特征进行游戏工作室用户的检测相比，本实施例方法对游戏工作室用户判定的参考依据为游戏玩家在游戏中的相关特征数据，不涉及玩家个人在现实生活中的隐私数据，进而保护了用户隐私。

对于本实施例的执行主体可为用于检测游戏用户是否为游戏工作室用户的装置或设备，可配置在服务器侧或客户端侧，可提高游戏工作室用户的检测准确度。

102、对待识别用户在游戏中的角色行为特征和角色属性特征进行数值化预处理，得到第一预处理数据。

由于角色行为特征和角色属性特征中有些并非是数值化的数据，为了便于输入到分类模型中进行分类，本实施例需要对待识别用户在游戏中的角色行为特征和角色属性特征进行数值化预处理。

103、利用随机森林算法，对第一预处理数据进行特征提取，得到第二预处理数据。

由于角色行为特征和角色属性特征中也会存在一些对模型分类相对不是很重要的数据，因此为了提高分类精确性和分类效率，本实施例可利用随机森林算法，计算单个特征变量的重要性，进而根据各个特征的重要性，对数值化处理后的角色行为特征和角色属性特征进行特征提取。

104、将第二预处理数据输入到分类模型中，并参照分类模型输出的分类结果，判断待识别用户是否为游戏工作室用户。

分类模型是基于已判定为游戏工作室用户在该游戏中的角色行为特征和角色属性特征进行训练得到的，该分类模型可以为决策树模型。其中，已判定为游戏工作室用户同样是游戏玩家用户，但是其已被判定为游戏工作室用户。

已被判定为游戏工作室用户的角色行为特征描述了已判定为游戏工作室用户在游戏当中的行为以及账号在游戏平台当中的行为。而已被判定为游戏工作室用户的角色属性特征描述了已判定为游戏工作室用户在游戏当中的一些固有属性。这些两种特征具体包含内容与步骤101中的角色行为特征和角色属性特征相同，区别在于，这两种特征是已判定为游戏工作室用户在游戏当中的相应特征，因此不再赘述。

在本实施例中，可通过查询历史已被判定为游戏工作室的账号/角色而进行封停的记录，进而获取得到已判定为游戏工作室用户在游戏中相应的角色行为特征和角色属性特征。

除了利用分类模型确定待识别用户是否为游戏工作室用户的方式以外，本实施例方法还可利用相似度计算的方式确定用户是否为游戏工作室用户，例如，可通过比对特征之间的相似度，如果待识别用户在游戏中的相应特征(角色行为特征和角色属性特征)，与已判定为游戏工作室用户在游戏中的相应特征(角色行为特征和角色属性特征)之间的相似度大于或等于一定阈值，说明待识别用户在游戏中的行为特征与属性特征与游戏工作室用户很相近，因此可判定待识别用户很可能是游戏工作室用户。

本实施例提供的一种游戏工作室的检测方法，可根据待识别用户在游戏中的角色行为特征和角色属性特征，并结合已判定为游戏工作室用户在游戏中的角色行为特征和角色属性特征，准确判别待识别用户是否为游戏工作室用户。与目前利用验证码等图灵测试方式相比，本实施例无需下发验证码进行验证，不会被轻易破解，可提高游戏工作室用户的检测准确度，不会影响其他正常玩家的游戏体验。降低了人工依赖性，可自动化完成游戏工作室用户的检测，提高了游戏工作室用户的检测效率。并且判断的参考依据为游戏玩家在游戏中角色的相关特征数据，不涉及玩家个人在现实生活中的隐私数据，进而保证了用户隐私。

进一步的，作为上述实施例具体实施方式的细化和扩展，为了完整说明本实施例的实施方式，本实施例还提供了另一种目标游戏用户的检测方法，如图2所示，该方法包括：

201、获取已判定为游戏工作室用户在游戏中的角色行为特征和角色属性特征。

对于本实施例，为了降低对人工的依赖性，实现自动化地检测游戏工作室用户，还可使用机器学习的分类模型进行智能分类，进而快速准确地识别出游戏工作室用户，从而节省人力，提高人工劳动价值。示例性的，以决策树的分类模型为例，具体可执行步骤202至208所示的过程。

202、对已判定为游戏工作室用户在游戏中的角色行为特征和角色属性特征进行数值化预处理。

为了得到分类准确的分类模型，首先需要准确的模型训练过程，在本实施例中，已判定为游戏工作室用户在游戏中的角色行为特征和角色属性特征可作为样本数据，并且由于这些特征中有些并非是数值化的数据，因此为了便于模型训练，需要对其进行数值化预处理。

可选的，数值化预处理的过程具体可包括：对角色周期在线时长，计算平均值；对角色周期内上线或下线时刻，计算标准差；根据角色所在账号历史充值信息，计算累计充值的数额和/或本统计周期内充值的数额；根据角色等级信息，获取角色在游戏中的等级数；根据角色种族信息，获取角色在游戏中所属的种族类型编号；根据角色职业信息，获取角色在游戏中所属的职业类型编号。

例如，角色周期在线时长可为角色每日在线时长，可取角色日均在线时长分钟数

如公式一所示，为整型数值。

其中，m_i为第i日的角色在线时长数，n为收集特征的总天数，N代表整数。

角色周期内上/下线时刻的标准差：如取每日角色上线时刻标准差s_in(如公式二)、每日下线时刻标准差S_out(如公式三)，均为浮点型数值。

其中，sin_i为第i日的角色上线时刻，sout_i为第i日的角色上线时刻，n为收集特征的总天数。

为周期内角色上线时刻均值，如公式四所示，

为周期内角色下线时刻均值：

根据角色所在账号历史充值信息，获取角色所在账号历史充值数额总数ctotal，为整型数值；以及获取角色所在账号本年度充值数额总数cyear，为整型数值。角色等级：获取角色等级数level，为整型数值。角色所在服务器ID：取角色所在服务器编号serverid，为整型数值。角色种族：取角色对应种族编号raceid，为整型数值。角色职业：取角色对应职业编号occid，为整型数值。

通过上述预处理方式，可将特征数据转换为数值化的数据，便于机器读取实现模型的训练过程。然而，随着游戏环境的不断变更，可能会在方法当中加入更多不同的模型。旧特征可能需要删除，新特征加入。但模型中并不依赖于过多的特征，因此本实施例选择以随机森林对特征进行选择，即执行步骤203所示的过程。

203、利用随机森林算法，对数值化预处理后的样本特征数据进行特征提取。

其中，随机森林指利用多棵树对样本进行训练并预测的一种分类器，可以计算单个特征变量的重要性。基于这种特征，可以用于对数据集中的特征，以重要性来进行选择。相应可选的，步骤203具体可包括：首先利用随机森林算法，计算数值化预处理后的特征数据中每个特征的重要性；然后根据每个特征的重要性，对数值化预处理后的特征数据进行特征提取。通过这种方式，使得分类模型训练所使用的样本数据更加精简和准确，避免使用过多无效的样本数据进行模型训练而影响模型分类的准确性，通过更精准的特征选择，可提升检测效率。

示例性的，利用随机森林算法，计算数值化预处理后的特征数据中每个特征的重要性，具体可包括：首先将数值化预处理后的特征数据，生成多个特征子集；再根据多个特征子集，构建多个决策树；然后计算每个决策树相应的袋外数据的第一误差，其中，袋外数据可以为构建决策树时未参与决策树构建的数据；然后再随机选取袋外数据中的目标特征，并在对目标特征加入随机噪声干扰后，再次计算每个决策树相应的袋外数据的第二误差；分别计算每个决策树相应的袋外数据的第一误差与第二误差之间的差值；最后将每个决策树对应的差值相加求和，再除以决策树的个数，得到目标特征的重要性。通过这种可选方式，可准确计算得到数值化预处理后的特征数据中每个特征的重要性，以便后续参照该重要性进行重要特征提取。

例如，将数值化预处理后的特征数据作为当前特征集合，首先对当前特征集合生成M个特征子集，子集的规模和大小可根据实际场景进行调整，以此构建决策树。再对每颗决策树，选择合适规模的袋外数据(Out of Bag，OOB)，计算相应的袋外数据误差，记为err_OOB1，其中袋外数据指建立该决策树时，未参与决策树建立的数据。然后随机选取OOB中特征F，并加入随机噪声干扰，再次计算袋外误差，记为err_OOB2。最后可得特征F重要性I为公式六所示：

其中，N为森林中决策树的个数。

示例性的，根据每个特征的重要性，对数值化预处理后的特征数据进行特征提取，具体可包括：首先按照每个特征的重要性，对特征数据中的各个特征进行排序；按照预设删除比例，对排序中重要性排名靠后的特征进行删除，得到新的特征数据；然后利用随机森林算法，计算新的特征数据中每个特征的重要性；根据新的特征数据中每个特征的重要性，重复执行上述特征排序、特征删除、和计算重要性的过程，直至最新得到的特征数据符合预设质量条件时停止；最后可根据符合预设质量条件的特征数据，确定提取的特征数据。

其中，预设质量条件可根据实际需求进行预设，例如，筛选得到的新特征全部适用最新版本的游戏环境、或筛选得到的特征数量小于或等于一定阈值、或筛选得到的特征重要性均大于或等于一定阈值等条件时，判定筛选得到的特征数据符合预设质量条件。通过这种可选方式，可保证最终提取的特征数据均满足需求。

进一步可选的，根据符合预设质量条件的特征数据，确定提取的特征数据，具体可包括：根据符合预设质量条件的特征数据，生成多个特征子集；根据多个特征子集，构建多个决策树；计算每个决策树相应的袋外数据的第三误差；选择第三误差最低的一个决策树所对应特征子集，作为提取的特征数据。通过这种可选方式，可准确利用每个特征的重要性，对数据集中的特征进行选择，使得最终提取的特征数据均为对实际分类能够提升准确性的特征数据，可提高模型训练的效率。

例如，特征提取的过程可如下(a)至(e)所示：

(a)对所需要进行筛选的特征变量，以I进行排序。

(b)以具体需求确定所需要删除的特征比例，并进行删除，得到新的特征集。

(c)用新得到的特征集建立随机森林，并重新计算集合中的特征重要性I。

(d)重复第(a)步至第(c)步，直至特征集合满足需求。

(e)根据最终得到的特征集，构建对应随机森林，计算相应的袋外误差，从而选择最低的特征集作为最终特征集。

204、根据提取的特征数据创建训练集，并利用决策树算法训练得到分类模型。

决策树算法可选用多种，如ID3，C4.5，CART等算法。可选的，本实施例中提及的游戏可以为大型多人在线角色扮演游戏(MassiveMultiplayer Online Role-PlayingGame，MMORPG)类型。对于此类型游戏，为了减少在游戏工作室用户检测过程中对游戏服务器的性能影响，以及提高检测效率，进一步可选的，本实施例可选择C4.5算法进行样本分类，即训练得到的分类模型(决策树模型)为C4.5算法模型。C4.5是一系列用在机器学习与数据挖掘中的监督式学习算法。对给定的数据集，其中的每个元组都能用一组属性值进行描述，每一个元组属于一个互斥类别中的某一类。该算法的目标是通过监督式学习从而找到属性值到相应类别的映射关系，并用这种关系构建决策树，对新的未知数据进行分类。

C4.5算法主要具有的优点包括：a、运行效率高；b、模型简单、易于理解与剪枝；c、对于可处理的数据类型的丰富程度；d、对于缺失值不敏感。

本实施例的应用需求与C4.5算法的匹配主要包括如下：

(1)运行效率与应用场景的匹配程度。本实施例主要应用在服务器端的玩家角色行为验证，对服务器的运行效率有一定的要求，不应占用过多的平台资源，从而减少成本。且C4.5算法，对于重复利用更加友好，修改模型的剪枝成本相较于其他算法更低。

(2)本实施例方法的主要操作人员。本实施例方法主要使用人员为游戏策划相关的业务人员。由于相关业务人员往往不具备专业的算法相关知识，因此需要降低业务人员的学习、操作成本。C4.5算法构建决策树，易于相关人员理解，学习成本低，易于业务人员直接对决策树进行剪枝，满足实际的生产需求。并且在降低业务人员理解成本的基础上，不会牺牲太多的运行效率。

(3)本实施例的主要应用场景。本实施例可主要应用于MMORPG类型游戏中，玩家的自然行为类型较多，因此对于数据预处理的操作较多。而C4.5对此类需求满足度更高。其中，自然行为类型多指：移动、释放技能、每天的行为序列、时间段的行为序列、与其他玩家、非玩家角色(Non-Player Character，NPC)、自然场景的交互这些特征都很多。

(4)对于数据预处理的程度。本实施例在数据预处理后进行了特征选择，而实际当中，不同的应用场景可能会出现各种复杂的数据环境。因此本实施例需要一种对数据缺失值不敏感的方案。其中，复杂的环境是指涉及行为类型比较多，可选的数据集合更多，玩家在新服和老服产生的行为数据都不一样，特别是社区里玩家与玩家的交互(社群交互)。数据缺失值不敏感是指假设有效特征为abcde，如果只有abc，决策树也能跑，性能影响小。但有一些像支持向量机(Support Vector Machine，SVM)等算法需要完成的特征abcde才能跑的好。

因此，基于以上(1)(2)(3)(4)的说明，C4.5是更适合于本实施例的算法。

C4.5算法中涉及的参数的说明如下所示：

信息熵:表示信息论中随机变量不确定的度量。信息熵越大，随机变量不确定性越大。X为有限个值的随机变量，其概率分布为公式七所示：

P(X＝x_i)＝p_i,i＝1,2,…,n (公式七)

X的熵H(X)定义为公式八所示:

条件熵：表示在已知随机变量X的条件下，随机变量Y的不确定性。有随机变量(X,Y)，其联合概率分布为公式九所示：

P(X＝x_i,Y＝y_i)＝p_ij,i＝1,2,…,n j＝1,2,…,n (公式九)

则其在给定X条件下，Y的条件概率分布条件熵为公式十所示：

信息增益：表示得知特征A的信息后对数据集D分类不确定性减少的程度。计算方式为公式十一所示：

Gain(D,A)＝H(D)-H(D|A) (公式十一)

基于上述C4.5算法，相应的，步骤205具体可包括：首先配置与提取的特征数据对应的样本标签；将提取的特征数据和与其对应的样本标签添加到训练集中；若训练集中所有样本数据的样本标签均属于第一类别，则决策树为单节点树，根据目标类别对决策树中节点的类别进行标记，返回决策树的分类模型；若训练集中与提取的特征数据对应的样本数据为空，则决策树为单节点树，根据训练集中样本数量最大的第二类别，对决策树中节点的类别进行标记，返回决策树的分类模型；若训练集中与所述提取的特征数据对应的样本数据为非空，则计算提取的特征数据对应的样本数据中信息增益率最大的特征；在信息增益率最大的特征的信息增益率小于预设阈值时，判定决策树为单节点树，根据训练集中样本数量最大的第二类别，对决策树中节点的类别进行标记，返回决策树的分类模型；在信息增益率最大的特征的信息增益率大于或等于预设阈值时，根据信息增益率最大的特征的所有可能值，将训练集划分为若干非空子集，并将每个非空子集中样本数量最大的第三类别作为标记，构建决策树的子节点以实现构建决策树，返回决策树的分类模型。

例如，决策树构建算法：

输入：训练数据集D(可包含正样本和/或负样本的实例数据)，特征集A(由上述特征提取步骤得到的特征数据创建得到的)，阈值ε(预设阈值)；

输出：决策树T的分类模型；

Step1：如果D中所有实例属于同一类C_k，则T为单节点树。将C_k作为该节点的类进行标记，并返回T；

Step2：如果A为空集，则T为单节点树。将D中实例数量最大的类C_k作为该节点的类进行标记，并返回T；

Step3：否则，计算A中信息增益率最大的特征A_k；

Step4：如果A_k的信息增益率小于阈值，则T为单节点树。将D中实例数量最大的类C_k作为该节点的类进行标记，并返回T；

Step5：否则，对A_k的所有可能值a_i，以A_k＝a_i将D划分为若干非空子集D_i。将D_i中实例数量最大的类作为标记，构建子节点，构建树T并返回。

通过这种可选方式，可创建得到准确的决策树分类模型，其中，分类模型训练时可进行十折交叉验证，并选用真正率(True Positive Rate，TPR)、假正率(False PositiveRate，FPR)、精确度(Precision)、召回率(Recall)、F1值等指标，作为模型训练达标的参考指标。其中，真正率用于预测正确的正样本数与总正样本数比率。假正率用于预测正确的负样本数与总负样本数比率。精确度用于预测为正的样本中真正正样本的比率。召回率用于预测正确的正样本数占总正样本的比率。F1值为精确度与召回率的调和均值。

例如，通过本实施例方法，在根据某年度由于游戏工作室封停账号记录作为数据集进行十折交叉验证。数据集共34072个角色数，特征总数272576。得出实验结果如下表2所示：

表2

TPR	FPR	Precision	Recall	F1
					0.998	0.002	0.998	0.998	0.998

205、当需要对待识别用户进行游戏工作室用户检测时，获取待识别用户在游戏中的角色行为特征和角色属性特征。

206、对待识别用户在游戏中的角色行为特征和角色属性特征进行数值化预处理，得到第一预处理数据。

其中，所述角色行为特征包括角色周期在线时长、角色周期内上线和/或下线时刻、角色所在账号历史充值信息中的一个或多个，所述角色属性特征包括角色等级信息、角色所在服务器ID、角色种族信息、角色职业信息、角色所在账号下的角色数量中的一个或多个。

可选的，步骤206具体可包括：对所述角色周期在线时长，计算平均值；对所述角色周期内上线或下线时刻，计算标准差；根据所述角色所在账号历史充值信息，计算累计充值的数额和/或本统计周期内充值的数额；根据所述角色等级信息，获取角色在游戏中的等级数；根据所述角色种族信息，获取角色在游戏中所属的种族类型编号；根据所述角色职业信息，获取角色在游戏中所属的职业类型编号。

207、利用随机森林算法，对第一预处理数据进行特征提取，得到第二预处理数据。

可选的，步骤207具体可包括：利用随机森林算法，计算所述第一预处理数据中每个特征的重要性；根据每个特征的重要性，对所述第一预处理数据进行特征提取，得到第二预处理数据。

可选的，利用随机森林算法，计算第一预处理数据中每个特征的重要性，具体包括：将第一预处理数据，生成多个特征子集；根据多个特征子集，构建多个决策树；计算每个决策树相应的袋外数据的第一误差，袋外数据为构建决策树时未参与决策树构建的数据；随机选取袋外数据中的目标特征，并在对目标特征加入随机噪声干扰后，再次计算每个决策树相应的袋外数据的第二误差；分别计算每个决策树相应的袋外数据的第一误差与第二误差之间的差值；将每个决策树对应的所述差值相加求和，再除以决策树的个数，得到目标特征的重要性。

可选的，根据每个特征的重要性，对所述第一预处理数据进行特征提取，得到第二预处理数据，具体包括：按照所述每个特征的重要性，对特征数据中的各个特征进行排序；按照预设删除比例，对排序中重要性排名靠后的特征进行删除，得到新的特征数据；利用随机森林算法，计算所述新的特征数据中每个特征的重要性；根据所述新的特征数据中每个特征的重要性，重复执行上述特征排序、特征删除、和计算重要性的过程，直至最新得到的特征数据符合预设质量条件时停止；根据符合所述预设质量条件的特征数据，确定所述第二预处理数据。

可选的，根据符合所述预设质量条件的特征数据，确定所述第二预处理数据，具体包括：根据符合所述预设质量条件的特征数据，生成多个特征子集；根据多个特征子集，构建多个决策树；计算每个决策树相应的袋外数据的第三误差；选择所述第三误差最低的一个决策树所对应特征子集，作为所述第二预处理数据。

本实施例中，步骤206和207的具体实现过程与前述模型训练中的特征处理过程相似，具体可参见步骤202、203所示的过程，在此不再赘述。

208、将第二预处理数据输入到分类模型中，并参照分类模型输出的分类结果，判断待识别用户是否为游戏工作室用户。

可选的，步骤208具体可包括：若分类模型输出的是角色不正常，则确定待识别用户为游戏工作室；然后对待识别用户对应的游戏账号、或游戏账号下不正常的角色进行限制处理。例如，对游戏账号或者游戏账号下的角色(账号下多个角色中的一个或多个)进行限制用户登录，封号，需要解封才能登录等。

例如，将待识别用户在游戏中的角色行为特征和角色属性特征，依次经过步骤206所示的数值化预处理、步骤207所示的特征提取，然后将提取的特征输入到步骤204得到的决策树分类模型中，并参照分类模型输出的分类结果，确定待识别用户是否为游戏工作室用户。通过这种方式，可实现自动化地检测游戏工作室用户，还可使用机器学习的分类模型进行智能分类，进而快速准确地识别出游戏工作室用户，从而节省人力，提高人工劳动价值。

进一步可选的，若确定待识别用户为游戏工作室用户，则本实施例方法还可包括：根据待识别用户的角色行为特征和角色属性特征，扩充训练集，以便利用扩充后的训练集更新训练分类模型。通过这种机器自动更新学习的方式，可实现分类模型准确更新，提高分类的准确性，进而可提高检测游戏工作室用户的准确度。

本实施例方法可部署于运营服务器当中，依照所需要的特征数据配合脚本自动获取。并可以预设所需特征数量，自动更新训练集对模型进行训练。以达到更高的时效性。

进一步的，若确定待识别用户为游戏工作室用户，则本实施例方法还可包括：输出相应的告警信息；和/或，将待识别用户加入到黑名单中，其中黑名单中的用户会被限制登录游戏。例如，在发现游戏工作室用户后，以文字、音频、视频等形式告警，以便及时告知给游戏管理人员等。或者将该用户加入黑名单中，以限制其登录该游戏，做到自动化防护。

本实施例提供的检测游戏工作室用户的方法，通过决策树的快速构建，可提高检测的准确度、精确度，进而提高F1值与召回率。本实施例在较大程度上提高非人工检测的精度，从而大大提高检测命中率。通过更多的自动化操作，降低人工依赖性，提升自动化检测效率。本实施例可以降低检测方式对人工的依赖，从而节省人力，提高人工劳动价值。提升检测时效性。本实施例可以较传统检测方式提高时效性，减少机器人对游戏环境的破坏。通过更准确地收集游戏角色相关信息，注重玩家隐私，不收集相关敏感信息。本实施例对于不必要的敏感信息不去收集，保护玩家隐私。通过更精准的特征选择，可提升检测游戏工作室用户的效率。

进一步的，作为图1和图2所示方法的具体实现，本实施例提供了一种目标游戏用户的检测装置，如图3所示，该装置包括：获取模块31、第一预处理模块32、第二预处理模块33、判断模块34。

获取模块31，用于获取待识别用户在游戏中的角色行为特征和角色属性特征；

第一预处理模块32，用于对所述角色行为特征和所述角色属性特征进行数值化预处理，得到第一预处理数据；

第二预处理模块33，用于利用随机森林算法，对所述第一预处理数据进行特征提取，得到第二预处理数据；

判断模块34，用于将所述第二预处理数据输入到分类模型中，并参照所述分类模型输出的分类结果，判断所述待识别用户是否为游戏工作室用户，其中，所述分类模型是基于已判定为游戏工作室用户在所述游戏中的角色行为特征和角色属性特征进行训练得到的，所述分类模型为决策树模型。

在具体的应用场景中，第二预处理模块33，具体用于利用随机森林算法，计算所述第一预处理数据中每个特征的重要性；根据每个特征的重要性，对所述第一预处理数据进行特征提取，得到第二预处理数据。

在具体的应用场景中，第二预处理模块33，具体还用于将所述第一预处理数据，生成多个特征子集；根据多个特征子集，构建多个决策树；计算每个决策树相应的袋外数据的第一误差，所述袋外数据为构建决策树时未参与决策树构建的数据；随机选取袋外数据中的目标特征，并在对所述目标特征加入随机噪声干扰后，再次计算每个决策树相应的袋外数据的第二误差；分别计算每个决策树相应的袋外数据的第一误差与第二误差之间的差值；将每个决策树对应的所述差值相加求和，再除以决策树的个数，得到所述目标特征的重要性。

在具体的应用场景中，第二预处理模块33，具体还用于按照所述每个特征的重要性，对特征数据中的各个特征进行排序；按照预设删除比例，对排序中重要性排名靠后的特征进行删除，得到新的特征数据；利用随机森林算法，计算所述新的特征数据中每个特征的重要性；根据所述新的特征数据中每个特征的重要性，重复执行上述特征排序、特征删除、和计算重要性的过程，直至最新得到的特征数据符合预设质量条件时停止；根据符合所述预设质量条件的特征数据，确定所述第二预处理数据。

在具体的应用场景中，第二预处理模块33，具体还用于根据符合所述预设质量条件的特征数据，生成多个特征子集；根据多个特征子集，构建多个决策树；计算每个决策树相应的袋外数据的第三误差；选择所述第三误差最低的一个决策树所对应特征子集，作为所述第二预处理数据。

在具体的应用场景中，可选的，所述角色行为特征包括角色周期在线时长、角色周期内上线和/或下线时刻、角色所在账号历史充值信息中的一个或多个，所述角色属性特征包括角色等级信息、角色所在服务器ID、角色种族信息、角色职业信息、角色所在账号下的角色数量中的一个或多个；

第一预处理模块32，具体用于对所述角色周期在线时长，计算平均值；对所述角色周期内上线或下线时刻，计算标准差；根据所述角色所在账号历史充值信息，计算累计充值的数额和/或本统计周期内充值的数额；根据所述角色等级信息，获取角色在游戏中的等级数；根据所述角色种族信息，获取角色在游戏中所属的种族类型编号；根据所述角色职业信息，获取角色在游戏中所属的职业类型编号。

在具体的应用场景中，本装置还包括：训练模块；

第一预处理模块32，还用于在所述将所述第二预处理数据输入到分类模型中之前，对已判定为游戏工作室用户在所述游戏中的角色行为特征和角色属性特征进行数值化预处理；

第二预处理模块33，还用于利用随机森林算法，对数值化预处理后的样本特征数据进行特征提取；

训练模块，用于根据提取的特征数据创建训练集，并利用决策树算法训练得到所述分类模型。

在具体的应用场景中，训练模块，具体用于配置与所述提取的特征数据对应的样本标签；将所述提取的特征数据和与其对应的样本标签添加到训练集中；若所述训练集中所有样本数据的样本标签均属于第一类别，则决策树为单节点树，根据所述目标类别对决策树中节点的类别进行标记，返回决策树的分类模型；若所述训练集中与所述提取的特征数据对应的样本数据为空，则决策树为单节点树，根据所述训练集中样本数量最大的第二类别，对决策树中节点的类别进行标记，返回决策树的分类模型；若所述训练集中与所述提取的特征数据对应的样本数据为非空，则计算所述提取的特征数据对应的样本数据中信息增益率最大的特征；在所述信息增益率最大的特征的信息增益率小于预设阈值时，判定决策树为单节点树，根据所述训练集中样本数量最大的第二类别，对决策树中节点的类别进行标记，返回决策树的分类模型；在所述信息增益率最大的特征的信息增益率大于或等于所述预设阈值时，根据所述信息增益率最大的特征的所有可能值，将所述训练集划分为若干非空子集，并将每个非空子集中样本数量最大的第三类别作为标记，构建决策树的子节点以实现构建决策树，返回决策树的分类模型。

在具体的应用场景中，训练模块，还用于若确定所述待识别用户为游戏工作室用户，则根据所述待识别用户的所述角色行为特征和所述角色属性特征，扩充所述训练集，以便利用扩充后的训练集更新训练所述分类模型。

在具体的应用场景中，判断模块，具体用于若所述分类模型输出的是角色不正常，则确定所述待识别用户为游戏工作室；对所述待识别用户对应的游戏账号、或所述游戏账号下不正常的角色进行限制处理。

在具体的应用场景中，可选的，所述游戏为大型多人在线角色扮演游戏MMORPG类型，所述决策树算法为C4.5算法。

需要说明的是，本实施例提供的一种目标游戏用户的检测装置所涉及各功能单元的其它相应描述，可以参考图1和图2中的对应描述，在此不再赘述。

基于上述如图1和图2所示方法，相应的，本实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述如图1和图2所示的目标游戏用户的检测方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景的方法。

基于上述如图1和图2所示的方法，以及图3所示的虚拟装置实施例，为了实现上述目的，本申请实施例还提供了一种目标游戏用户的检测设备，具体可以为个人计算机、服务器、智能手机、或其他网络设备等，该设备包括存储介质和处理器；存储介质，用于存储计算机程序；处理器，用于执行计算机程序以实现上述如图1和图2所示的目标游戏用户的检测方法。

可选的，上述实体设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency，RF)电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)等。

本领域技术人员可以理解，本实施例提供的上述实体设备结构并不构成对该实体设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述实体设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信，以及与信息处理实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。通过应用本实施例的方案，可根据待识别用户在游戏中的角色行为特征和角色属性特征，并结合已判定为游戏工作室用户在游戏中的角色行为特征和角色属性特征，准确判别待识别用户是否为游戏工作室用户。与目前利用验证码等图灵测试方式相比，本实施例无需下发验证码进行验证，不会被轻易破解，可提高游戏工作室用户的检测准确度，不会影响其他正常玩家的游戏体验。降低了人工依赖性，可自动化完成游戏工作室用户的检测，提高了游戏工作室用户的检测效率。并且判断的参考依据为游戏玩家在游戏中角色的相关特征数据，不涉及玩家个人在现实生活中的隐私数据，进而保证了用户隐私。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种目标游戏用户的检测方法，其特征在于，包括：

获取待识别用户在游戏中的角色行为特征和角色属性特征，所述角色行为特征和所述角色属性特征包括：随游戏环境的不断变更而加入的新特征；

利用随机森林算法，对所述第一预处理数据进行特征提取，并根据提取到的符合预设质量条件的特征数据，得到第二预处理数据；

其中，所述预设质量条件包括：筛选得到的新特征全部适用最新版本的游戏环境时，判定筛选得到的特征数据符合所述预设质量条件；

将所述第二预处理数据输入到分类模型中，并参照所述分类模型输出的分类结果，判断所述待识别用户是否为游戏工作室用户，其中，所述分类模型是基于已判定为游戏工作室用户在所述游戏中的角色行为特征和角色属性特征进行训练得到的，所述分类模型为决策树模型，所述游戏为大型多人在线角色扮演游戏类型。

2.根据权利要求1所述的方法，其特征在于，所述利用随机森林算法，对所述第一预处理数据进行特征提取，并根据提取到的符合预设质量条件的特征数据，得到第二预处理数据，具体包括：

利用随机森林算法，计算所述第一预处理数据中每个特征的重要性；

根据每个特征的重要性，对所述第一预处理数据进行特征提取，并根据提取到的符合预设质量条件的特征数据，得到第二预处理数据。

3.根据权利要求2所述的方法，其特征在于，所述利用随机森林算法，计算所述第一预处理数据中每个特征的重要性，具体包括：

将所述第一预处理数据，生成多个特征子集；

根据多个特征子集，构建多个决策树；

计算每个决策树相应的袋外数据的第一误差，所述袋外数据为构建决策树时未参与决策树构建的数据；

随机选取袋外数据中的目标特征，并在对所述目标特征加入随机噪声干扰后，再次计算每个决策树相应的袋外数据的第二误差；

分别计算每个决策树相应的袋外数据的第一误差与第二误差之间的差值；

将每个决策树对应的所述差值相加求和，再除以决策树的个数，得到所述目标特征的重要性。

4.根据权利要求2所述的方法，其特征在于，所述根据每个特征的重要性，对所述第一预处理数据进行特征提取，并根据提取到的符合预设质量条件的特征数据，得到第二预处理数据，具体包括：

按照所述每个特征的重要性，对特征数据中的各个特征进行排序；

按照预设删除比例，对排序中重要性排名靠后的特征进行删除，得到新的特征数据；

利用随机森林算法，计算所述新的特征数据中每个特征的重要性；

根据所述新的特征数据中每个特征的重要性，重复执行上述特征排序、特征删除、和计算重要性的过程，直至最新得到的特征数据符合预设质量条件时停止；

根据符合所述预设质量条件的特征数据，确定所述第二预处理数据。

5.根据权利要求4所述的方法，其特征在于，所述根据符合所述预设质量条件的特征数据，确定所述第二预处理数据，具体包括：

根据符合所述预设质量条件的特征数据，生成多个特征子集；

根据多个特征子集，构建多个决策树；

计算每个决策树相应的袋外数据的第三误差；

选择所述第三误差最低的一个决策树所对应特征子集，作为所述第二预处理数据。

6.根据权利要求1所述的方法，其特征在于，所述角色行为特征包括角色周期在线时长、角色周期内上线和/或下线时刻、角色所在账号历史充值信息中的一个或多个，所述角色属性特征包括角色等级信息、角色所在服务器ID、角色种族信息、角色职业信息、角色所在账号下的角色数量中的一个或多个；

所述对所述角色行为特征和所述角色属性特征进行数值化预处理，得到第一预处理数据，具体包括：

对所述角色周期在线时长，计算平均值；

对所述角色周期内上线或下线时刻，计算标准差；

根据所述角色所在账号历史充值信息，计算累计充值的数额和/或本统计周期内充值的数额；

根据所述角色等级信息，获取角色在游戏中的等级数；

根据所述角色种族信息，获取角色在游戏中所属的种族类型编号；

根据所述角色职业信息，获取角色在游戏中所属的职业类型编号。

7.根据权利要求1所述的方法，其特征在于，在所述将所述第二预处理数据输入到分类模型中之前，所述方法还包括：

对已判定为游戏工作室用户在所述游戏中的角色行为特征和角色属性特征进行数值化预处理；

利用随机森林算法，对数值化预处理后的样本特征数据进行特征提取；

根据提取的特征数据创建训练集，并利用决策树算法训练得到所述分类模型。

8.根据权利要求7所述的方法，其特征在于，所述根据提取的特征数据创建训练集，并利用决策树算法训练得到所述分类模型，具体包括：

配置与所述提取的特征数据对应的样本标签；

将所述提取的特征数据和与其对应的样本标签添加到训练集中；

若所述训练集中所有样本数据的样本标签均属于第一类别，则决策树为单节点树，根据所述目标类别对决策树中节点的类别进行标记，返回决策树的分类模型；

若所述训练集中与所述提取的特征数据对应的样本数据为空，则决策树为单节点树，根据所述训练集中样本数量最大的第二类别，对决策树中节点的类别进行标记，返回决策树的分类模型；

若所述训练集中与所述提取的特征数据对应的样本数据为非空，则计算所述提取的特征数据对应的样本数据中信息增益率最大的特征；

在所述信息增益率最大的特征的信息增益率小于预设阈值时，判定决策树为单节点树，根据所述训练集中样本数量最大的第二类别，对决策树中节点的类别进行标记，返回决策树的分类模型；

在所述信息增益率最大的特征的信息增益率大于或等于所述预设阈值时，根据所述信息增益率最大的特征的所有可能值，将所述训练集划分为若干非空子集，并将每个非空子集中样本数量最大的第三类别作为标记，构建决策树的子节点以实现构建决策树，返回决策树的分类模型。

9.根据权利要求7所述的方法，其特征在于，若确定所述待识别用户为游戏工作室用户，则所述方法还包括：

根据所述待识别用户的所述角色行为特征和所述角色属性特征，扩充所述训练集，以便利用扩充后的训练集更新训练所述分类模型。

10.根据权利要求1所述的方法，其特征在于，所述决策树模型为C4.5算法模型；

所述参照所述分类模型输出的分类结果，判断所述待识别用户是否为游戏工作室用户，具体包括：

若所述分类模型输出的是角色不正常，则确定所述待识别用户为游戏工作室；

对所述待识别用户对应的游戏账号、或所述游戏账号下不正常的角色进行限制处理。

11.一种目标游戏用户的检测装置，其特征在于，包括：

获取模块，用于获取待识别用户在游戏中的角色行为特征和角色属性特征，所述角色行为特征和所述角色属性特征包括：随游戏环境的不断变更而加入的新特征；

第二预处理模块，用于利用随机森林算法，对所述第一预处理数据进行特征提取，并根据提取到的符合预设质量条件的特征数据，得到第二预处理数据；

判断模块，用于将所述第二预处理数据输入到分类模型中，并参照所述分类模型输出的分类结果，判断所述待识别用户是否为游戏工作室用户，其中，所述分类模型是基于已判定为游戏工作室用户在所述游戏中的角色行为特征和角色属性特征进行训练得到的，所述分类模型为决策树模型，所述游戏为大型多人在线角色扮演游戏类型。

12.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至10中任一项所述的方法。

13.一种目标游戏用户的检测设备，包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至10中任一项所述的方法。