CN112791414B

CN112791414B - 外挂识别模型训练方法、装置、电子设备及存储介质

Info

Publication number: CN112791414B
Application number: CN202110407089.3A
Authority: CN
Inventors: 刘志煌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2021-08-17
Anticipated expiration: 2041-04-15
Also published as: CN112791414A

Abstract

本发明提供了一种外挂识别模型训练方法、装置、电子设备、存储介质，方法包括：基于目标用户的行为信息确定所述外挂识别模型的训练样本，确定所述外挂识别环境中的外挂画像特征；根据所述目标用户的行为信息，确定相应的行为序列信息；确定与所述外挂识别模型相适配的模型参数，由此，能够实现通过外挂识别模型对目标用户的行为进行实时监测，并根据风险预测结果执行相匹配的事件执行策略，使得外挂识别模型的泛化能力以及数据处理能力更强，适应不同的外挂识别环境，降低外挂识别模型的鲁棒性。同时无需获取大量标注样本训练专用于识别作弊行为的模型，因此可以有效降低识别作弊行为的成本。

Description

外挂识别模型训练方法、装置、电子设备及存储介质

技术领域

本发明涉及神经网络模型中的数据处理技术，尤其涉及外挂识别模型训练方法、装置、电子设备及存储介质。

背景技术

用户在线上竞赛、广告投放、游戏能不同的网络行为场景中，会产生不同的网络行为信息，这一过程中某些网络用户会通过使用外挂，篡改网络行为场景原本正常的设定和规则，大幅增强网络行为场景中的技能和超越常规的能力，从而达到轻松的网络行为场景中获取胜利、奖励和快感的好处，例如在网络游戏中，使用游戏外挂的可以显示原本不应该展示的程序运算内容，通过作弊的形式提升胜出概率，因此，游戏外挂的使用会影响游戏的公平性，降低正常玩家的游戏体验，并且游戏外挂会为游戏服务器产生大量冗余数据，严重影响游戏的正常运营。

发明内容

有鉴于此，本发明实施例提供一种外挂识别模型训练方法、装置、电子设备及存储介质，能够实现通过外挂识别模型对目标用户的行为信息进行实时监测，使得外挂识别模型的泛化能力以及数据处理能力更强，适应不同的使用环境，降低外挂识别模型的鲁棒性，提升外挂识别模型对用户行为识别的准确性。

本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种外挂识别模型训练方法，包括：

获取外挂识别环境中的目标用户的行为信息，并基于所述目标用户的行为信息确定所述外挂识别模型的训练样本，其中，所述外挂识别模型的训练样本包括正常网络样本和非正常网络样本；

基于所述目标用户的行为信息，确定所述外挂识别环境中的外挂画像特征；

根据所述目标用户的行为信息，确定相应的行为序列信息；

基于所述外挂识别模型的训练样本和所述行为序列信息对所述外挂识别模型进行训练，确定与所述外挂识别模型相适配的模型参数，以实现通过所述外挂识别模型对所述目标用户的行为风险进行预测。

本发明实施例还提供了一种外挂识别模型训练装置，所述装置包括：

信息传输模块，用于获取外挂识别环境中的目标用户的行为信息，并基于所述目标用户的行为信息确定所述外挂识别模型的训练样本，其中，所述外挂识别模型的训练样本包括正常网络样本和非正常网络样本；

信息处理模块，用于基于所述目标用户的行为信息，确定所述外挂识别环境中的外挂画像特征；

所述信息处理模块，用于根据所述目标用户的行为信息，确定相应的行为序列信息；

所述信息处理模块，用于基于所述外挂识别模型的训练样本和所述行为序列信息对所述外挂识别模型进行训练，确定与所述外挂识别模型相适配的模型参数，以实现通过所述外挂识别模型对所述目标用户的行为风险进行预测。

上述方案中，

所述信息处理模块，用于根据所述外挂识别环境的类型，确定与所述目标用户相匹配的时间阈值；

根据所述时间阈值，在所述外挂识别环境的历史数据中查询所述目标用户的历史行为数据；

根据所述目标用户的历史行为数据所携带的外挂标识信息，对所述目标用户的历史行为数据进行分类处理，形成正常网络样本和非正常网络样本。

上述方案中，

所述信息处理模块，用于对所述目标用户的行为信息进行分类，基于与所述外挂识别环境相匹配的缺失过滤阈值对所述目标用户的行为信息进行筛选；

对经过筛选的所述目标用户的行为信息进行异常值处理，并基于异常值处理的结果进行缺失值补充处理；

对经过缺失值补充处理的目标用户的行为信息进行特征衍生处理；

对经过特征衍生处理的目标用户的行为信息进行独热编码，形成所述外挂识别环境中的外挂画像特征。

上述方案中，

所述信息处理模块，用于基于时间序列对所述目标用户的行为信息进行处理，形成与时间序列相匹配的用户行为特征；

根据所述外挂识别环境的类型，确定相匹配的博弈行为规则，并基于所述博弈行为规则对与时间序列相匹配的用户行为特征进行处理，形成相应的行为策略信息；

通过所述外挂识别模型的策略行为挖掘网络对所述行为策略信息进行扩充，确定相应的行为序列信息。

上述方案中，

所述信息处理模块，用于通过所述外挂识别模型中的策略行为挖掘网络，对所述训练样本进行处理，以确定所述策略行为挖掘网络的初始参数；

通过所述外挂识别模型中的门控循环单元网络对所述行为序列信息进行处理，确定所述门控循环单元网络的初始参数

响应于所述策略行为挖掘网络的初始参数和所述门控循环单元网络的初始参数，通过所述策略行为挖掘网络和所述门控循环单元网络对所述训练样本进行处理，确定所述策略行为挖掘网络和门控循环单元网络的更新参数；

根据所述策略行为挖掘网络和门控循环单元网络的更新参数，通过所述训练样本对所述策略行为挖掘网络和门控循环单元网络的更新参数进行迭代更新，以提取所述训练样本中每个样本的特征嵌入向量。

上述方案中，

所述信息处理模块，用于确定与所述外挂识别模型相匹配的多任务损失函数；

基于所述外挂识别模型的训练样本和所述行为序列信息对所述外挂识别模型进行处理；

基于所述多任务损失函数，调整所述外挂识别模型中的策略行为挖掘网络的参数和门控循环单元网络的网络参数，直至所述策略行为挖掘网络对应的不同维度的损失函数达到相应的收敛条件；以实现所述外挂识别模型的参数与外挂识别环境相适配。

上述方案中，

所述信息处理模块，用于当所述目标对象所处外挂识别环境为动态外挂噪声时，确定与所述外挂识别模型的使用环境相匹配的动态噪声阈值；

根据所述动态噪声阈值对训练样本进行去除噪声处理，以形成与所述动态噪声阈值相匹配的动态训练样本集合。

上述方案中，

所述信息处理模块，用于当所述目标对象所处外挂识别环境为静态外挂噪声时，确定与外挂识别模型相对应的固定噪声阈值，并根据所述固定噪声阈值对训练样本进行去除噪声处理，以形成与所述固定噪声阈值相匹配的静态训练样本集合。

上述方案中，

所述信息处理模块，用于根据所述外挂识别环境的类型，触发所述外挂识别模型的前馈神经网络；

基于所述训练样本，对所述外挂识别模型的前馈神经网络进行训练，确定所述外挂识别模型的前馈神经网络的网络参数。

上述方案中，

所述信息处理模块，用于基于所述目标用户的外挂识别环境，触发相对应的应用程序接口，并通过所述应用程序接口获取目标用户的行为信息；

通过应用程序接口，获取所述应用程序接口传输的账户参数信息、用户IP地址信息和用户操作时间戳信息；

基于所述目标用户的外挂识别环境，得到与目标用户的外挂识别环境相匹配的动态噪声；

基于所述动态噪声，对所获取的应用程序接口传输的账户参数信息、用户IP地址信息和用户操作时间戳信息进行除噪处理，形成与目标用户相匹配的用户行为特征。

上述方案中，

所述信息处理模块，用于基于所述目标用户的外挂识别环境，获取所述应用程序接口传输的通信进程信息、操作历史信息以及支付信息。

上述方案中，

所述信息处理模块，用于基于所述应用程序接口传输的账户参数信息，确定所述目标用户的账户画像信息；

基于所述应用程序接口传输的用户IP地址信息，确定所述目标用户的IP地址画像；

基于所述应用程序接口传输的用户操作时间戳信息，确定所述目标用户的设备画像信息。

上述方案中，

所述信息处理模块，用于获取外挂识别环境中的目标用户对应的行为数据，并基于所述行为数据确定对应的策略行为序列信息；

通过所述外挂识别模型的策略行为挖掘网络，对所述策略行为序列信息进行扩充处理；

基于所述述外挂识别环境中的外挂画像特征和经过扩充的策略行为序列信息，通过所述外挂识别模型的门控循环单元网络，确定外挂识别环境中的外挂识别结果，其中，所述外挂识别模型基于前序实施例训练得到。

本发明实施例还提供了一种电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现前序的外挂识别模型训练方法。

本发明实施例还提供了一种计算机可读存储介质，存储有可执行指令，所述可执行指令被处理器执行时实现前序的外挂识别模型训练方法。

本发明实施例具有以下有益效果：

本发明实施例通过获取外挂识别环境中的目标用户的行为信息，并基于所述目标用户的行为信息确定所述外挂识别模型的训练样本，其中，所述外挂识别模型的训练样本包括正常网络样本和非正常网络样本；基于所述目标用户的行为信息，确定所述外挂识别环境中的外挂画像特征；根据所述目标用户的行为信息，确定相应的行为序列信息；基于所述外挂识别模型的训练样本和所述行为序列信息对所述外挂识别模型进行训练，确定与所述外挂识别模型相适配的模型参数，以实现通过所述外挂识别模型对所述目标用户的行为风险进行预测，由此，能够实现通过外挂识别模型对目标用户的行为进行实时监测，并根据风险预测结果执行相匹配的事件执行策略，使得外挂识别模型的泛化能力以及数据处理能力更强，适应不同的外挂识别环境，降低外挂识别模型的鲁棒性。同时无需获取大量标注样本训练专用于识别用户行为的神经网络，因此可以有效降低用户行为的识别成本，同时相比于传统方法中基于人工设定的作弊规则识别作弊行为的方法，本申请实施例提供的方法可以有效准确地识别用户行为，适配变化速度更快地不同行为识别场景，提高模型的通用性。

附图说明

图1是本发明实施例提供的外挂识别模型训练方法的使用环境示意图；

图2为本发明实施例提供的外挂识别模型训练装置的组成结构示意图；

图3为本发明实施例提供的外挂识别模型训练方法一个可选的流程示意图；

图4为本发明实施例中外挂画像特征的使用场景示意图；

图5为本发明实施例提供的外挂识别模型训练方法一个可选的流程示意图；

图6为本发明实施例中外挂识别模型中BI-LSTM和am-softmax网络的结构示意图；

图7为本发明实施例中外挂识别模型的模型结构示意图；

图8为本发明实施例中策略行为挖掘网络一个可选的结构示意图；

图9为本发明实施例中Transformers网络一个可选的结构示意图；

图10为外挂识别模型对棋类游戏检测的环境示意图；

图11为本发明实施例提供的外挂识别模型训练方法一个可选处理过程示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解， “一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1）响应于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

2）基于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

3）卷积神经网络（CNN Convolutional Neural Networks）是一类包含卷积计算且具有深度结构的前馈神经网络（Feed forward Neural Networks），是深度学习（deeplearning）的代表算法之一。卷积神经网络具有表征学习（representation learning）能力，能够按其阶层结构对输入信息进行平移不变分类（shift-invariantclassification）。

4）模型训练，对图像数据集进行多分类学习。该模型可采用Tensor Flow、torch等深度学习框架进行构建，使用CNN等神经网络层的多层结合组成多分类模型。模型的输入为图像经过openCV等工具读取形成的三通道或原通道矩阵，模型输出为多分类概率，通过softmax等算法最终输出网页类别。在训练时，模型通过交叉熵等目标函数向正确趋势逼近。

5）神经网络（Neural Network，NN）：人工神经网络（Artificial Neural Network，ANN），简称神经网络或类神经网络，在机器学习和认知科学领域，是一种模仿生物神经网络（动物的中枢神经系统，特别是大脑）的结构和功能的数学模型或计算模型，用于对函数进行估计或近似。

6）外挂识别环境：举例来说对于不同的目标用户的行为信息，可以对应不同的外挂识别环境，例如：游戏外挂的识别环境、网络购票行为的外挂识别环境、在线投票行为的外挂识别环境，以及网络竞拍行为的外挂识别环境，以游戏外挂的识别环境为例，游戏外挂识别环境中需要对游戏场景中的枪战类游戏、跑酷类游戏、竞速类游戏、多人在线战术竞技游戏(Multiplayer Online Battle Arena，MOBA)、竞速游戏(Racing Game，RCG)以及体育运动类游戏(sport game，SPG)等游戏画面中的用户行为信息进行分析，判断游戏用户是否使用了游戏外挂，采用本申请提供的经过训练的外挂识别模型，可以部署在前述各类游戏场景所对应的游戏服务器中，用于外挂识别环境中的外挂识别结果，对于使用游戏玩挂的游戏账号进行封号处理，保证外挂识别环境中的每一个游戏用户的公平公正参与游戏。

7）双向注意力神经网络模（BERT Bidirectional Encoder Representationsfrom Transformers）谷歌提出的双向注意力神经网络模型。

8）Softmax：归一化指数函数，是逻辑函数的一种推广。它能将一个含任意实数的K维向量“压缩”到另一个K维实向量中，使得每一个元素的范围都在[0 ，1]之间，并且所有元素的和为1。

在介绍本发明实施例提供的外挂识别模型训练方法之前，首选对传统技术识别外挂的缺陷简要介绍，传统技术中的反作弊处理主要是对原始数据先通过复杂的特征工程进行特征提取和分析，再将提取和分析的特征，采用传统的自回归积分滑动平均模型(Autoregressive Integrated Moving Average Model，ARIMA)或孤立森林算法进行训练，基于训练的模型进行异常行为检测。其他常见的作弊行为识别方法还包括：基于决策树判别模型发现作弊行为的方法和基于人工设定的作弊规则识别作弊行为的方法。在基于决策树判别模型发现作弊行为的方法中，可以利用决策树判别模型根据用户特征识别用户是否存在作弊行为。在基于人工设定的作弊规则识别作弊行为的方法中，需要结合具体应用场景的特点将作弊可能采取的所有措施都列举出来，进而基于此梳理作弊规则，利用梳理出的作弊规则对作弊行为进行反制。但是，基于决策树判别模型发现作弊行为的方法，需要利用标注样本对决策树判别模型进行训练，而构建大量标注样本需要花费较高的成本，构建少量标注样本又难以保证决策树判别模型的模型精度，即难以在训练成本和模型精度之间取得平衡。基于人工设定的作弊规则识别作弊行为的方法，通常需要引入相关领域的专家和先验知识梳理作弊规则，该作弊规则灵活性较低、不易扩展，对于复杂多变的线上场景，往往经过一段时间后作弊规则的覆盖率就会显著降低。

图1为本发明实施例提供的外挂识别模型训练方法的使用场景示意图，参见图1，在本申请实施例所提供的外挂识别模型训练方法应用中，终端包括终端10-1和终端10-2，其中终端10-1位于开发人员侧，用以控制外挂识别模型训练进程的使用，终端10-2位于用户侧，用以对外挂识别环境中的用户行为进行检测识别不同的行为策略（包括正常行为策略和外挂行为策略），目标用户的行为风险进行预测，筛选所出现的外挂，或者实现辅助进程中的用户共同执行相应的用户行为，终端通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线或有线链路实现数据传输。

以外挂识别环境为游戏外挂识别为例，终端10-2位于用户侧，用于执行游戏用户的行为策略或者运行游戏外挂进程，其中目标对象可以是各种类型的游戏中的人物角色，对于静态外挂噪声的环境，终端设备110中运行有在线棋类竞赛程序，则目标用户可以通过该在线棋类竞赛程序进行棋类竞赛，目标用户在当前竞赛过程中的行为即可被视为该目标用户的当前行为。服务器120用于执行本申请实施例提供的用户行为数据处理方法，针对目标用户通过终端设备110执行的当前操作识别其是否为作弊行为。

作为一个示例，服务器200用于布设所述外挂识别模型训练装置以实现本发明所提供的外挂识别模型训练方法，后者可以布设经过训练的外挂识别模型训练进程，以实现在不同的外挂识别环境中（例如枪战类游戏、跑酷类游戏、竞速类游戏、多人在线战术竞技游戏(Multiplayer Online Battle Arena，MOBA)、竞速游戏(Racing Game，RCG)以及体育运动类游戏(sport game，SPG)）能够准确识别使用游戏外挂软件的用户，具体过程包括：获取外挂识别环境中的目标用户的行为信息，并基于所述目标用户的行为信息确定所述外挂识别模型的训练样本，其中，所述外挂识别模型的训练样本包括正常网络样本和非正常网络样本；基于所述目标用户的行为信息，确定所述外挂识别环境中的外挂画像特征；根据所述目标用户的行为信息，确定相应的行为序列信息；基于所述外挂识别模型的训练样本和所述行为序列信息对所述外挂识别模型进行训练，确定与所述外挂识别模型相适配的模型参数，以实现通过所述外挂识别模型对所述目标用户的行为风险进行预测。

当然，本发明所提供的外挂识别模型训练装置可以基于对同一目标对象在不同行为策略生成环境中的外挂识别模型训练进程为进行训练，也可以根据目标对象的不同等级进行训练调整，最终在用户界面（UI User Interface）上呈现出与通过外挂识别模型训练进程所确定与外挂识别环境相适配的行为策略，所得到通过外挂识别模型训练进程以及与外挂识别环境相适配的行为策略还可以供其他应用程序调用（例如游戏模拟器或者体感游戏设备），当然，与不同类型的游戏相匹配的外挂识别模型训练进程也可以迁移至即时通讯进程的小程序游戏或者网页游戏以及云游戏等不同的外挂识别环境，本申请不做具体限制。

在外挂识别环境为游戏外挂识别的处理过程中，对外挂识别模型训练完成之后，就可以通过外挂识别模型训练进程进行不同游戏场景中的外挂识别，执行相应的处理进程（例如警告和封号），以促进游戏玩家公平竞争，具体包括：当外挂识别环境中的控制组件被触发时，在经过所述目标对象所处外挂识别环境的用户界面中呈现虚拟目标对象，通过触发经过训练的外挂识别模型进行外挂识别，并在识别出游戏外挂时发出提示信息。

下面对本发明实施例的外挂识别模型训练装置的结构做详细说明，外挂识别模型训练装置可以各种形式来实施，如带有外挂识别模型训练装置处理功能的专用终端，也可以为设置有外挂识别模型训练装置处理功能的服务器，例如前序图1中的服务器200。图2为本发明实施例提供的外挂识别模型训练装置的组成结构示意图，可以理解，图2仅仅示出了外挂识别模型训练装置的示例性结构而非全部结构，根据需要可以实施图2示出的部分结构或全部结构。

本发明实施例提供的外挂识别模型训练装置包括：至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。外挂识别模型训练装置中的各个组件通过总线系统205耦合在一起。可以理解，总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统205。

其中，用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器202可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端（如10-1）的操作。这些数据的示例包括：用于在终端（如10-1）上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

在一些实施例中，本发明实施例提供的外挂识别模型训练装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的外挂识别模型训练装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的外挂识别模型训练方法。例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路（ASIC，Application Specific Integrated Circuit）、DSP、可编程逻辑器件（PLD，ProgrammableLogic Device）、复杂可编程逻辑器件（CPLD，Complex Programmable Logic Device）、现场可编程门阵列（FPGA，Field-Programmable Gate Array）或其他电子元件。

作为本发明实施例提供的外挂识别模型训练装置采用软硬件结合实施的示例，本发明实施例所提供的外挂识别模型训练装置可以直接体现为由处理器201执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器202，处理器201读取存储器202中软件模块包括的可执行指令，结合必要的硬件（例如，包括处理器201以及连接到总线205的其他组件）完成本发明实施例提供的外挂识别模型训练方法。

作为示例，处理器201可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器（DSP，Digital Signal Processor），或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

作为本发明实施例提供的外挂识别模型训练装置采用硬件实施的示例，本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成，例如，被一个或多个应用专用集成电路（ASIC，Application Specific Integrated Circuit）、DSP、可编程逻辑器件（PLD，Programmable Logic Device）、复杂可编程逻辑器件（CPLD，ComplexProgrammable Logic Device）、现场可编程门阵列（FPGA，Field-Programmable GateArray）或其他电子元件执行实现本发明实施例提供的外挂识别模型训练方法。

本发明实施例中的存储器202用于存储各种类型的数据以支持外挂识别模型训练装置的操作。这些数据的示例包括：用于在外挂识别模型训练装置上操作的任何可执行指令，如可执行指令，实现本发明实施例的从外挂识别模型训练方法的程序可以包含在可执行指令中。

在另一些实施例中，本发明实施例提供的外挂识别模型训练装置可以采用软件方式实现，图2示出了存储在存储器202中的外挂识别模型训练装置，其可以是程序和插件等形式的软件，并包括一系列的模块，作为存储器202中存储的程序的示例，可以包括外挂识别模型训练装置，外挂识别模型训练装置中包括以下的软件模块：

信息传输模块2081，用于获取外挂识别环境中的目标用户的行为信息，并基于所述目标用户的行为信息确定所述外挂识别模型的训练样本，其中，所述外挂识别模型的训练样本包括正常网络样本和非正常网络样本；

信息处理模块2082，用于基于所述目标用户的行为信息，确定所述外挂识别环境中的外挂画像特征；

所述信息处理模块2082，用于根据所述目标用户的行为信息，确定相应的行为序列信息；

所述信息处理模块2082，用于基于所述外挂识别模型的训练样本和所述行为序列信息对所述外挂识别模型进行训练，确定与所述外挂识别模型相适配的模型参数，以实现通过所述外挂识别模型对所述目标用户的行为风险进行预测。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（CDN，ContentDelivery Network）、以及大数据和人工智能平台等基础云计算服务的云服务器。终端（如终端10-1）可以是智能手机、平板电脑、笔记本电脑、台式计算机、可穿戴智能设备、VR/AR设备、车载计算机、智能家居等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

根据图2所示的电子设备，在本申请的一个方面中，本申请还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述外挂识别模型训练方法的各种可选实现方式中所提供的不同实施例及实施例的组合。

继续结合图2示出的外挂识别模型训练装置说明本发明实施例提供的外挂识别模型训练方法，其中，参见图3，图3为本发明实施例提供的外挂识别模型训练方法一个可选的流程示意图，可以理解地，图3所示的步骤可以由运行外挂识别模型训练装置的各种电子设备执行，例如可以是如带有外挂识别模型训练装置的专用终端、行为策略数据库服务器或者游戏运营商的服务器集群，其中，带有外挂识别模型训练装置的专用终端可以为前序图2所示的实施例中带有外挂识别模型训练装置的电子设备。为了克服传统行为策略生成方式所造成的行为策略生成不准确以及效率低的缺陷，本发明所提供的技术方案使用了人工智能技术，人工智能AI （Artificial Intelligence）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

下面针对图3示出的步骤进行具体说明。

步骤301：外挂识别模型训练装置获取外挂识别环境中的目标用户的行为信息，并基于所述目标用户的行为信息确定所述外挂识别模型的训练样本。

其中，所述外挂识别模型的训练样本包括正常网络样本和非正常网络样本，对于游戏外挂识别环境，正常网络样本可以包括游戏中虚拟角色的操作策略，非正常网络样本可以包括针对该游戏环境的游戏外挂样本。

在本发明的一些实施例中，获取外挂识别环境中的目标用户的行为信息，并基于所述目标用户的行为信息确定所述外挂识别模型的训练样本，可以通过以下方式实现：

根据所述外挂识别环境的类型，确定与所述目标用户相匹配的时间阈值；根据所述时间阈值，在所述外挂识别环境的历史数据中查询所述目标用户的历史行为数据；根据所述目标用户的历史行为数据所携带的外挂标识信息，对所述目标用户的历史行为数据进行分类处理，形成正常网络样本和非正常网络样本。其中，以棋牌类游戏为例，游戏运营商为了监测使用游戏外挂行为，可以主动获取历史数据，也可以在满足触发条件时自动获取历史数据。比如，可以通过对游戏日志的分析，当游戏日志中的信息满足触发条件时，触发获取历史数据的操作。例如，当分析到任一游戏玩家在很短时间内其运行的棋牌游戏的游戏等级升级速度很快时，比如该棋牌游戏在正常情形下从5级升到10级一般需要一周时间，而任一游戏玩家在1天内从5级升到10级时，而获取任一游戏玩家运行棋牌游戏时游戏客户端，或者，当检测到丙游戏玩家启动游戏客户端的启动途径为通过第三方程序启动时，获取丙游戏玩家运行游戏时游戏客户端所生成的游戏画面图像。例如，当检测到丙游戏玩家启动游戏客户端的启动途径为通过第三方程序启动，且游戏等级升级速度满足预设升级速度时，可以根据棋牌游戏对应的时间阈值72小时，查询目标用户的72小时中的棋牌游戏的历史行为数据，获得携带外挂标识信息的历史行为数据作为非正常网络样本。

在本发明的一些实施例中，角色扮演类游戏由于游戏复杂度较高，出现的游戏外挂的种类多，频率高，因此外挂噪声经常变化，当所述目标对象所处外挂识别环境为动态外挂噪声环境时，确定与所述外挂识别模型的使用环境相匹配的动态噪声阈值；根据所述动态噪声阈值对训练样本进行去除噪声处理，以形成与所述动态噪声阈值相匹配的动态训练样本集合。其中，由于外挂识别模型的外挂识别环境不同，与所述外挂识别模型的使用环境相匹配的动态噪声阈值也不相同，例如，可以通过即时通讯客户端进程执行角色扮演类游戏小程序游戏，也可以通过客户端游戏进程执行角色扮演类游戏，其中小程序游戏的游戏复杂程度通常大于客户端游戏的复杂度，因此与所述外挂识别模型的使用环境相匹配的动态噪声阈值需要小于游戏用户通过客户端游戏进程执行动态外挂噪声中使用环境中的动态噪声阈值，并依据噪声阈值删除超出噪声阈值的训练样本，通过不同动态噪声阈值可以适应不同类型的游戏的使用，有效筛选训练样本，使得所部署的经过训练的外挂识别模型所生成的行为策略，用户可以获得更好的行为策略。

在本发明的一些实施例中，棋牌类游戏由于复杂度较低，出现的游戏外挂的种类较少，频率低，因此外挂噪声通常表现为固定噪声（即静态外挂噪声），当所述目标对象所处外挂识别环境为静态外挂噪声时，确定与外挂识别模型相对应的固定噪声阈值，并根据所述固定噪声阈值对训练样本进行去除噪声处理，以形成与所述固定噪声阈值相匹配的静态训练样本集合。其中，对于部署于固定游戏终端（例如体感游戏机或者AR游戏眼镜等游戏设备）中的棋牌类游戏，通过固定噪声阈值可以有效提升训练样本的获取速度与精确度，减少游戏用户的等待时间，在游戏进程的版本进行更新时，可以获得新的固定噪声阈值，对所携带的训练样本噪声低于固定噪声阈值的训练样本进行删除，以提升游戏终端的学习效率。

步骤302：外挂识别模型训练装置基于所述目标用户的行为信息，确定所述外挂识别环境中的外挂画像特征。

参考图4，图4为本发明实施例中外挂画像特征的使用场景示意图，在本发明的一些实施例中，基于所述目标用户的行为信息，确定所述外挂识别环境中的外挂画像特征，可以通过以下方式实现：

对所述目标用户的行为信息进行分类，基于与所述外挂识别环境相匹配的缺失过滤阈值对所述目标用户的行为信息进行筛选；对经过筛选的所述目标用户的行为信息进行异常值处理，并基于异常值处理的结果进行缺失值补充处理；对经过缺失值补充处理的目标用户的行为信息进行特征衍生处理；对经过特征衍生处理的目标用户的行为信息进行独热编码，形成所述外挂识别环境中的外挂画像特征。其中，以棋牌类游戏的使用场景为例，通过本申请实施例提供的方法应用于在线棋类竞赛中识别选手是否作弊的场景为例，服务器可以根据目标用户的历史个人特征信息，如年龄、性别、外貌、所在地、星座等等，构建该目标用户的历史画像特征数据，服务器还可以根据目标用户的历史行为信息，如历史竞赛平均分、段位等级、下棋性格(如保守、稳健、凶猛等)、习惯路数(如弃子攻杀、守城大将、绝地反击等)、历史比赛平均时长、历史比赛风格(如局面型、激进型等)，构建该目标用户的历史画像特征数据。进一步地，构建历史画像特征数据之前，通常需要先确定基于哪种特征信息构建历史画像特征数据，此时，对于候选特征信息，服务器可以根据目标用户群体中各用户针对该种候选特征信息的配置情况，确定该候选特征信息的缺失量，当该候选特征信息的缺失量小于缺失量阈值时，可以确定该候选特征信息作为生成历史画像特征数据时所依据的特征信息，该缺失量阈值是根据目标用户群体中的用户数量和预设缺失率确定的。

在线棋类竞赛中识别选手是否使用外挂软件时，对于某种候选特征信息，服务器可以先确定注册使用该在线棋类竞赛程序的各个用户针对该种候选特征信息的配置情况，将没有配置该种候选特征信息的用户数量作为该种候选特征信息的缺失量，具体来说，舍弃缺失值过多的特征：设定缺失值的过滤值阈值=样本数据量*n，其中，n可以根据不同的游戏场景进行设定例如静态外挂噪声可以设定为0.4，具体根据应用场景而设定，若某特征数据缺失的数量超过该阈值则过滤这个特征，同时删除单值特征，实现对目标用户的行为信息进行筛选。

在对目标用户的行为信息进行筛选之后，还需要对经过筛选的所述目标用户的行为信息进行异常值处理，并基于异常值处理的结果进行缺失值补充处理，具体来说，可以根据特征分布，舍弃特征数值太大、排在前 1/m的异常值，m可设置为10000，具体根据应用场景而设定；可以使用空值设置方法有，平均值法，最小值法，最大值法，置零法等。平均值法指的是，将空值置为其对应特征维度非空值的平均值。最小值法会将缺失值设置为远远小于其对应特征维度最小值的一个固定值，最大值法与最小值法类似。置零法指的是将空值置为0，置零法的优势在于可以使表格数据变得稀疏，加快模型处理速度。其中，在处理外挂画像特征时，所使用的梯度提升算法为CatBoost（categorical boosting）时，对目标用户的行为信息建模，可以不用预先处理空值，因为梯度提升算法为CatBoost内置了空值处理方法，由此，可以提升目标用户的行为信息的处理速度，适应实时变化的游戏场景。

最后，对经过缺失值补充处理的目标用户的行为信息进行特征衍生处理，并进行独热编码，形成所述外挂识别环境中的外挂画像特征，其中，进行特征衍生处理时可以通过特征变换、特征平方、特征加减进行特征组合和衍生，之后对所形成的外挂画像特征中的连续型特征进行分箱离散化、离散型特征进行one-hot编码，在本发明的一些实施例中，异常数据处理完成之后，可以通过独热编码(One-Hot Encoding)对外挂画像特征的类别数据进行编码，具体包括：使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。这一部分可以借助sklearn来完成。如果之后使用Cat Boost方法对外挂画像特征进行建模，可以不用预先处理类别数据。

步骤303：外挂识别模型训练装置根据所述目标用户的行为信息，确定相应的行为序列信息。

在本发明的一些实施例中，根据所述目标用户的行为信息，确定相应的行为序列信息，可以通过以下方式实现：

基于时间序列对所述目标用户的行为信息进行处理，形成与时间序列相匹配的用户行为特征；根据所述外挂识别环境的类型，确定相匹配的博弈行为规则，并基于所述博弈行为规则对与时间序列相匹配的用户行为特征进行处理，形成相应的行为策略信息；通过所述外挂识别模型的策略行为挖掘网络对所述行为策略信息进行扩充，确定相应的行为序列信息。其中，以棋牌类游戏为例，可以首先通过时间序列整理目标用户的行为信息，按照时间序列对用户行为特征进行排序，由此，对于棋牌类的游戏场景，由于博弈中分为A方和B方，各方的行为都会影响对方下一步采取的策略和行为，对于某方采取的某种策略，对方进行应对甚至策略反击，由于包括了固定模式信息的，即能够反映博弈双方的招式路数和段位水平。在本发明的一些实施例中，为了进一步地获得行为策略信息，可以先对在线棋类竞赛中的博弈行为进行规范化统一标识，不同的棋类竞赛中有各自的一些招式路数或手法，例如，在国际象棋竞赛中，开局策略有意大利开局、双马防御、匈牙利防御、西班牙开局、西西里防御等等，战术有闪将、双将、捉双、牵制、引离等；服务器可以先获取大量的棋局谱，然后标注棋局中某些行为序列数据对应的策略，并将标注有策略的行为序列数据添加至策略知识库，以构建出策略知识库，一种示例性的策略知识库如表1所示，具体的标识的策略行为序列，构建模型进行学习，从而获取标识更多的策略行为序列，自动扩充策略知识库。可以通过某个策略为例，对应该策略下标识的各种行为序列：行为序列a、行为序列b、行为序列c…，于是对不同策略可构建策略行为序列库如表1：

表1

步骤304：外挂识别模型训练装置基于所述外挂识别模型的训练样本和所述行为序列信息对所述外挂识别模型进行训练，确定与所述外挂识别模型相适配的模型参数，以实现通过所述外挂识别模型对所述目标用户的行为风险进行预测。

继续按参考图5，图5为本发明实施例提供的外挂识别模型训练方法一个可选的流程示意图，可以理解地，图5所示的步骤可以由运行外挂识别模型训练装置的各种电子设备执行，例如可以是如带有外挂识别模型训练装置的专用终端、行为策略数据库服务器或者游戏运营商的服务器集群，其中，带有外挂识别模型训练装置的专用终端可以为前序图2所示的实施例中带有外挂识别模型训练装置的电子设备。

步骤501：通过所述外挂识别模型中的策略行为挖掘网络，对所述训练样本进行处理，以确定所述策略行为挖掘网络的初始参数。

其中，参考图6，图6为本发明实施例中外挂识别模型中BI-LSTM和am-softmax网络的结构示意图，可以利用该策略知识库中的数据作为训练样本数据，对待训练模型进行训练。示例性的，本申请可以根据策略知识库的形式构建一个基于margin loss的多分类模型(即待训练模型)，引入Bi-LSTM(Bi-directional Long Short-Term Memory)模型作为游戏处理模型识别模型中的待训练特征提取网络。当然，在实际应用中，本申请不仅可以使用Bi-LSTM模型作为待训练特征提取网络还可以使用前向神经网络模型（Bi-LSTM Bi-directional Long Short-Term Memory）、门控循环单元网络模型（GRU Gated RecurrentUnit）模型、深度语境化词表征网络模型（ELMo embedding from language model）、GPT模型、GPT2模型代替，对此，本发明不再赘述。

该模型基于各个策略的行为序列样本库，同一策略的行为序列样本即所属同一个类别，训练基于am-softmax的多分类模型可以参考公式1和公式2：

其中，χ即输入的行为序列，y为BI-LSTM编码模型的输出，即行为序列编码后的特征，W为对应的策略标签集合，即

，即

，其中am-softmax对应的损失函数的loss可以参考公式3为：

公式3

其中，公式中θ_i代表y与c_i的夹角，s可取30，m可取0.35。

在本发明的一些实施例中，可以通过最小化上述am-softmax的损失函数，对待训练模型中的待训练特征提取网络Bi-LSTM模型和待训练分类模型am-softmax进行训练。确定待训练模型满足预设的训练结束条件后，例如，确定对于该待训练模型的迭代训练次数达到预设训练次数阈值，或者确定该待训练模型的模型准确度达到预设准确度阈值后，可以将待训练模型中的待训练特征提取网络作为本申请中的目标特征提取网络。进一步地，还可以在应用该目标特征提取网络的过程中，还可以利用该目标特征提取网络处理的行为序列数据，扩充上述策略知识库。具体的，服务器可以计算特征提取网络处理行为序列数据与策略知识库中已有的行为序列数据之间的相似度，针对相似度超过预设相似度阈值的行为序列数据，服务器可以为其标注已有的行为序列数据对应的策略，进而将标注后的行为序列数据存储至策略知识库中，以扩充该策略知识库。

步骤502：通过所述外挂识别模型中的门控循环单元网络对所述行为序列信息进行处理，确定所述门控循环单元网络的初始参数。

步骤503：响应于所述策略行为挖掘网络的初始参数和所述门控循环单元网络的初始参数，通过所述策略行为挖掘网络和所述门控循环单元网络对所述训练样本进行处理，确定所述策略行为挖掘网络和门控循环单元网络的更新参数。

参考图7，图7为本发明实施例中外挂识别模型的模型结构示意图，图7所示的外挂识别模型能够实现识别外挂识别环境中的各类型游戏外挂，例如在线上国际象棋竞赛的场景中，外挂识别模型能够智能识别参赛者在参赛过程中是否出现游戏外挂，从而进行相应的处置，对于比赛的公平公正和举办平台都是非常重要的。本申请实施例所提供的外挂识别模型可以包括策略行为挖掘网络和门控循环单元网络，具体来说，策略行为挖掘网络的结构可以为Transformer网络结构，在本发明的一些实施例中，策略行为挖掘网络可以为双向注意力神经网络模（BERT Bidirectional Encoder Representations fromTransformers）。继续参考图8，图8为本发明实施例中策略行为挖掘网络一个可选的结构示意图，其中， Encoder包括：N=6个相同的layers组成，每一层包含两个sub-layers。第一个sub-layer 就是多头注意力层（multi-head attention layer）然后是一个简单的全连接层。其中每个sub-layer都加了残差连接（residual connection）和归一化（normalisation）。Decoder包括：由N=6个相同的Layer组成，其中layer和encoder并不相同，这里的layer包含了三个sub-layers，其中有一个self-attention layer，encoder-decoder attention layer 最后是一个全连接层。前两个sub-layer 都是基于multi-headattention layer。

在应用中，Multi-Head Self Attention结构的由多层结构完全一样但权重矩阵不同的Attention组成，参考图9，图9为本发明实施例中Transformers网络一个可选的结构示意图，其中，每个循环单元又分为4个小部分：多头注意力机制网络901（multi-headattention）与对应的标准化处理网络902（add&norm），以及前馈神经网络903（feedForward），与对应的标准化处理网络904（add&norm），在处理游戏外挂时，游戏外挂使用过程中所采取策略的行为序列之间往往具有极强的相关性，例如在棋类游戏过程中，前面采取的策略会影响后续的一系列行为策略的制定执行，这种关联信息对于外挂的识别是非常关键的。基于Transformer挖掘策略行为序列的相关性信息。因此需要通过图9所示的结构，首先对不同的策略行为进行特征编码，例如对不同的策略行为进行one-hot编码，编码后的行为按照出现的顺序组成行为序列特征编码，输入Transformer模型中。Transformer相较于相关技术中的CNN能够获取全局信息，同时Transformer改进了RNN训练慢的缺点，利用self-attention机制实现快速并行，同时该结构可以防止模型只关注到模型的一部分特征，通过多头注意力机制Multi-Head Self Attention的设计可以使每一个head都关注到了外挂识别环境不同的特征，扩大模型的学习范围，更加准确全面的确定行为序列元素之间的相关性。同时通过图9所示的前馈神经网络以及标准化网络的处理，获得相应的识别结果。

步骤504：根据所述策略行为挖掘网络和门控循环单元网络的更新参数，通过所述训练样本对所述策略行为挖掘网络和门控循环单元网络的更新参数进行迭代更新，以提取所述训练样本中每个样本的特征嵌入向量。

步骤505：确定与所述外挂识别模型相匹配的多任务损失函数。

步骤506：基于所述多任务损失函数，调整所述外挂识别模型中的策略行为挖掘网络的参数和门控循环单元网络的网络参数，直至所述策略行为挖掘网络对应的不同维度的损失函数达到相应的收敛条件；以实现所述外挂识别模型的参数与外挂识别环境相适配。

在本发明的一些实施例中，对于复杂博弈规则的外挂识别环境的类型，可以触发所述外挂识别模型的前馈神经网络；基于所述训练样本，对所述外挂识别模型的前馈神经网络进行训练，确定所述外挂识别模型的前馈神经网络的网络参数。

继续参考图6，基于所述外挂识别环境中的外挂画像特征和经过扩充的策略行为序列信息可以实现对游戏外挂的识别时，通过外挂识别模型的门控循环单元网络（GRU）进行特征抽取，GRU是比LSTM参数更少的能够很好处理序列信息的模型，接下来将融合特征输入前馈神经网络，目的是为了处理其他特征的有效信息。将预测外挂行为作为预测发生概率问题，使用sigmoid函数（逻辑函数）作为输出层，损失函数是标准的交叉熵损失，参考公式4：

公式4

其中，GRU层是为了进行深度特征抽取，也可以省略GRU层替换为多拼接几层前馈神经网络层，同样能够有效的处理和融合特征。以预测外挂概率为输出构建如下图的网络模型，最终输出样本外挂的概率，概率超过一定阈值则认为存在游戏外挂行为，而并非游戏用户的正常操作。

在本发明的一些实施例中，还可以基于所述目标用户的外挂识别环境，触发相对应的应用程序接口，并通过所述应用程序接口获取目标用户的行为信息；通过应用程序接口，获取所述应用程序接口传输的账户参数信息、用户IP地址信息和用户操作时间戳信息；基于所述目标用户的外挂识别环境，得到与目标用户的外挂识别环境相匹配的动态噪声；基于所述动态噪声，对所获取的应用程序接口传输的账户参数信息、用户IP地址信息和用户操作时间戳信息进行除噪处理，形成与目标用户相匹配的用户行为特征。其中，为了实现API接口实时判断外挂软件的版本迭代，并实判断现结果在100ms以内返回，实现正确识别最新版的游戏外挂。可选的接口有三个必选输入参数，账户参数信息、用户IP信息、用户操作时间戳信息，其中，账户参数包括但不限于：游戏账号、QQ OpenID、微信OpenID、IMEI/IDFA或者业务系统账号，还有一些可选输入参数，比如手机号、邮箱、注册时间戳、用户密码、登录来源、手机型号、系统版本等，参数越多有助于提高外挂软件的版本判断的准确性。

进一步地，基于所述目标用户的外挂识别环境，获取所述应用程序接口传输的通信进程信息、操作历史信息以及支付信息，通过支付信息判断是否通过游戏外挂软件非法盗卖游戏积分与游戏奖品，也可以基于所述应用程序接口传输的账户参数信息，确定所述目标用户的账户画像信息；基于所述应用程序接口传输的用户IP地址信息，确定所述目标用户的IP地址画像；基于所述应用程序接口传输的用户操作时间戳信息，确定所述目标用户的设备画像信息，通过用户画像能够有效的监控用户的行为。

下面以赛车游戏的外挂进程的检测为例，对本发明提供的外挂识别模型训练方法进行说明，其中，参考图10，图10为外挂识别模型对赛车类游戏检测的环境示意图，游戏用户通过使用游戏外挂软件能够在不同的对战棋局中获胜，当检测出user-1使用游戏外挂时，可以在游戏界面中发出提示信息 “User-1使用游戏外挂，封号处理”通知游戏的所有参与用户，为了实现图10所示的检测效果，继续参考图11，图11为本发明实施例提供的外挂识别模型训练方法一个可选处理过程示意图，具体包括以下步骤：

步骤1101：获取游戏环境中的目标用户的行为信息，并基于所述目标用户的行为信息确定所述外挂识别模型的训练样本。

其中，所获取的训练样本包括：过去30天中游戏用户的操作数据，具体来说，可以包括：游戏完成时长、各技能特效的使用频率(如技能特效A的使用频率、技能特效B的使用频率等)、各技能特效的触发次数(如技能特效A的触发次数、技能特效B的触发次数)、各失误情况的出现次数(如出现失误A的次数、出现失误B的次数)、以及不同游戏动作的使用比例(如游戏行为策略A的使次数、游戏动作B的使用次数，目标对象的游戏动作的使用次数、各游戏道具的使用次数(如游戏道具“炸弹”的使用次数、游戏道具“氮气加速”的使用次数)。

步骤1102：基于所述目标用户的行为信息，确定所述游戏环境中的游戏外挂画像特征。

步骤1103：根据所述目标用户的行为信息，确定相应的行为序列信息。

步骤1104：基于所述外挂识别模型的训练样本和所述行为序列信息对所述外挂识别模型进行训练，确定与所述外挂识别模型相适配的模型参数，并部署经过训练的外挂识别模型。

步骤1105：获取外挂识别环境中的目标用户对应的行为数据，并基于所述行为数据确定对应的策略行为序列信息。

步骤1106：通过所述外挂识别模型的策略行为挖掘网络，对所述策略行为序列信息进行扩充处理。

步骤1107：基于所述述游戏环境中的游戏外挂画像特征和经过扩充的策略行为序列信息，通过所述外挂识别模型的门控循环单元网络，确定游戏环境中的外挂识别结果。

步骤1108：检测出现外挂信息时，冻结游戏账号，并发出提示信息。

有益技术效果：

本发明实施例通过获取外挂识别环境中的目标用户的行为信息，并基于所述目标用户的行为信息确定所述外挂识别模型的训练样本，基于所述目标用户的行为信息，确定所述外挂识别环境中的外挂画像特征；根据所述目标用户的行为信息，确定相应的行为序列信息；基于所述外挂识别模型的训练样本和所述行为序列信息对所述外挂识别模型进行训练，确定与所述外挂识别模型相适配的模型参数，以实现通过所述外挂识别模型对所述目标用户的行为风险进行预测能够实现通过外挂识别模型对目标用户的行为进行实时监测，并根据风险预测结果执行相匹配的事件执行策略，使得外挂识别模型的泛化能力以及数据处理能力更强，适应不同的外挂识别环境，降低外挂识别模型的鲁棒性。同时无需获取大量标注样本训练专用于识别用户行为的神经网络，因此可以有效降低用户行为的识别成本，同时相比于传统方法中基于人工设定的作弊规则识别作弊行为的方法，本申请实施例提供的方法可以有效准确地识别用户行为，适配变化速度更快地不同行为识别场景，提高模型的通用性。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种外挂识别模型训练方法，其特征在于，所述方法包括：

根据所述目标用户的行为信息，确定相应的行为序列信息；

基于所述外挂识别模型的训练样本和所述行为序列信息对所述外挂识别模型进行训练，确定与所述外挂识别模型相适配的模型参数，以实现通过所述外挂识别模型对所述目标用户的行为风险进行预测，其中，所述外挂识别模型包括策略行为挖掘网络和门控循环单元网络，所述策略行为挖掘网络用于对行为数据对应的策略行为序列信息进行扩充处理，得到经过扩充的策略行为序列信息，所述门控循环单元网络用于通过所述经过扩充的策略行为序列信息，确定游戏环境中的外挂识别结果。

2.根据权利要求1所述的方法，其特征在于，所述获取外挂识别环境中的目标用户的行为信息，并基于所述目标用户的行为信息确定所述外挂识别模型的训练样本，包括：

根据所述外挂识别环境的类型，确定与所述目标用户相匹配的时间阈值；

3.根据权利要求1所述的方法，其特征在于，所述基于所述目标用户的行为信息，确定所述外挂识别环境中的外挂画像特征，包括：

对所述目标用户的行为信息进行分类，基于与所述外挂识别环境相匹配的缺失过滤阈值对所述目标用户的行为信息进行筛选；

4.根据权利要求1所述的方法，其特征在于，所述根据所述目标用户的行为信息，确定相应的行为序列信息，包括：

基于时间序列对所述目标用户的行为信息进行处理，形成与时间序列相匹配的用户行为特征；

5.根据权利要求1所述的方法，其特征在于，所述基于所述外挂识别模型的训练样本和所述行为序列信息对所述外挂识别模型进行训练，确定与所述外挂识别模型相适配的模型参数，包括：

通过所述外挂识别模型中的策略行为挖掘网络，对所述训练样本进行处理，以确定所述策略行为挖掘网络的初始参数；

6.根据权利要求5所述的方法，其特征在于，所述根据所述策略行为挖掘网络和门控循环单元网络的更新参数，通过所述训练样本对所述策略行为挖掘网络和门控循环单元网络的更新参数进行迭代更新，包括：

确定与所述外挂识别模型相匹配的多任务损失函数；

7.根据权利要求5所述的方法，其特征在于，所述方法还包括：

当目标对象所处外挂识别环境为动态外挂噪声时，确定与所述外挂识别模型的使用环境相匹配的动态噪声阈值；

8.根据权利要求5所述的方法，其特征在于，所述方法还包括：

当目标对象所处外挂识别环境为静态外挂噪声时，确定与外挂识别模型相对应的固定噪声阈值，并根据所述固定噪声阈值对训练样本进行去除噪声处理，以形成与所述固定噪声阈值相匹配的静态训练样本集合。

9.根据权利要求5所述的方法，其特征在于，所述方法还包括：

根据所述外挂识别环境的类型，触发所述外挂识别模型的前馈神经网络；

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述目标用户的外挂识别环境，触发相对应的应用程序接口，并通过所述应用程序接口获取目标用户的行为信息；

11.根据权利要求10所述的方法，其特征在于，所述方法包括：

基于所述应用程序接口传输的账户参数信息，确定所述目标用户的账户画像信息；

12.根据权利要求1-10任意一项所述的方法，其特征在于，所述方法包括：

获取外挂识别环境中的目标用户对应的行为数据，并基于所述行为数据确定对应的策略行为序列信息；

基于所述述外挂识别环境中的外挂画像特征和经过扩充的策略行为序列信息，通过所述外挂识别模型的门控循环单元网络，确定外挂识别环境中的外挂识别结果，其中，所述外挂识别模型基于权利要求1-11任意一项训练得到。

13.一种外挂识别模型训练装置，其特征在于，所述装置包括：

所述信息处理模块，用于基于所述外挂识别模型的训练样本和所述行为序列信息对所述外挂识别模型进行训练，确定与所述外挂识别模型相适配的模型参数，以实现通过所述外挂识别模型对所述目标用户的行为风险进行预测，其中，所述外挂识别模型包括策略行为挖掘网络和门控循环单元网络，所述策略行为挖掘网络用于对行为数据对应的策略行为序列信息进行扩充处理，得到经过扩充的策略行为序列信息，所述门控循环单元网络用于通过所述经过扩充的策略行为序列信息，确定游戏环境中的外挂识别结果。

14.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现权利要求1至12任一项所述的外挂识别模型训练方法。

15.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至12任一项所述的外挂识别模型训练方法。