CN114618167A - 反作弊检测模型构建方法以及反作弊检测方法 - Google Patents

反作弊检测模型构建方法以及反作弊检测方法 Download PDF

Info

Publication number
CN114618167A
CN114618167A CN202011437329.6A CN202011437329A CN114618167A CN 114618167 A CN114618167 A CN 114618167A CN 202011437329 A CN202011437329 A CN 202011437329A CN 114618167 A CN114618167 A CN 114618167A
Authority
CN
China
Prior art keywords
data
cheating
detection model
sample
cheating detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011437329.6A
Other languages
English (en)
Inventor
秦文力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011437329.6A priority Critical patent/CN114618167A/zh
Publication of CN114618167A publication Critical patent/CN114618167A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/70Game security or game management aspects
    • A63F13/75Enforcing rules, e.g. detecting foul play or generating lists of cheating players
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computer Security & Cryptography (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本申请涉及人工智能的机器学习技术,提供了一种反作弊检测模型构建方法以及反作弊检测方法。所述反作弊检测模型构建方法包括:获取携带标签的真实训练数据,真实训练数据通过已训练的异常检测模型对携带标签的样本训练集进行数据清洗得到;根据真实训练数据对初始反作弊检测模型进行训练,得到待调整反作弊检测模型;获取携带标签的样本测试集,根据样本测试集对待调整反作弊检测模型进行基于模型解释的调整,得到已训练的反作弊检测模型。采用本方法能够得到可实现准确反作弊检测的反作弊检测模型,从而利用该反作弊检测模型实现准确的反作弊检测。

Description

反作弊检测模型构建方法以及反作弊检测方法
技术领域
本申请涉及计算机技术领域,特别是涉及一种反作弊检测模型构建方法以及反作弊检测方法。
背景技术
随着计算机技术的发展,出现了反作弊检测技术,反作弊检测技术是指对各个领域中存在的作弊行为进行检测。比如,具体可以是指对金融领域存在的如信用卡欺诈、保险欺诈等作弊行为进行检测。又比如,具体可以是指对游戏领域存在的作弊行为进行检测。
传统技术中,在进行反作弊检测时采用的方式为,获取携带标签的黑白样本数据,利用黑白样本数据对反作弊检测模型进行训练,得到已训练的反作弊检测模型,根据反作弊检测模型进行反作弊检测。
然而,传统方法,由于黑白样本数据中噪声数据过多,存在反作弊检测准确率低的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高反作弊检测准确率的反作弊检测模型构建方法以及反作弊检测方法、装置、计算机设备和存储介质。
一种反作弊检测模型构建方法,所述方法包括:
获取携带标签的真实训练数据,真实训练数据通过已训练的异常检测模型对携带标签的样本训练集进行数据清洗得到;
根据真实训练数据对初始反作弊检测模型进行训练,得到待调整反作弊检测模型;
获取携带标签的样本测试集,根据样本测试集对待调整反作弊检测模型进行基于模型解释的调整,得到已训练的反作弊检测模型。
一种反作弊检测方法,所述方法包括:
获取待检测数据;
通过已训练的反作弊检测模型对待检测数据进行反作弊检测,得到作弊数据,已训练的反作弊检测模型根据上述反作弊检测模型构建方法构建。
一种反作弊检测模型构建装置,所述装置包括:
训练数据获取模块,用于获取携带标签的真实训练数据,真实训练数据通过已训练的异常检测模型对携带标签的样本训练集进行数据清洗得到;
训练模块,用于根据真实训练数据对初始反作弊检测模型进行训练,得到待调整反作弊检测模型;
优化模块,用于获取携带标签的样本测试集,根据样本测试集对待调整反作弊检测模型进行基于模型解释的调整,得到已训练的反作弊检测模型。
一种反作弊检测装置,所述装置包括:
待检测数据获取模块,用于获取待检测数据;
检测模块,用于通过已训练的反作弊检测模型对待检测数据进行反作弊检测,得到作弊数据,已训练的反作弊检测模型根据上述反作弊检测模型构建方法构建。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取携带标签的真实训练数据,真实训练数据通过已训练的异常检测模型对携带标签的样本训练集进行数据清洗得到;
根据真实训练数据对初始反作弊检测模型进行训练,得到待调整反作弊检测模型;
获取携带标签的样本测试集,根据样本测试集对待调整反作弊检测模型进行基于模型解释的调整,得到已训练的反作弊检测模型。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待检测数据;
通过已训练的反作弊检测模型对待检测数据进行反作弊检测,得到作弊数据,已训练的反作弊检测模型根据上述反作弊检测模型构建方法构建。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取携带标签的真实训练数据,真实训练数据通过已训练的异常检测模型对携带标签的样本训练集进行数据清洗得到;
根据真实训练数据对初始反作弊检测模型进行训练,得到待调整反作弊检测模型;
获取携带标签的样本测试集,根据样本测试集对待调整反作弊检测模型进行基于模型解释的调整,得到已训练的反作弊检测模型。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待检测数据;
通过已训练的反作弊检测模型对待检测数据进行反作弊检测,得到作弊数据,已训练的反作弊检测模型根据上述反作弊检测模型构建方法构建。
上述反作弊检测模型构建方法,通过获取携带标签的真实训练数据,可以得到被数据清洗后的干净的真实训练数据,再利用该真实训练数据对初始反作弊检测模型进行训练,得到待调整反作弊检测模型,最后获取携带标签的样本测试集,根据样本测试集对待调整反作弊检测模型进行基于模型解释的调整,实现对待调整反作弊检测模型的优化,能够得到可实现准确反作弊检测的反作弊检测模型,从而利用该反作弊检测模型实现准确反作弊检测。上述反作弊检测方法,通过利用可实现准确反作弊检测的反作弊检测模型对待检测数据进行反作弊检测,能够实现准确反作弊检测。
附图说明
图1为一个实施例中反作弊检测模型构建方法的流程示意图;
图2为一个实施例中反作弊检测模型构建方法的示意图;
图3为另一个实施例中反作弊检测模型构建方法的示意图;
图4为又一个实施例中反作弊检测模型构建方法的示意图;
图5为再一个实施例中反作弊检测模型构建方法的示意图;
图6为一个实施例中反作弊检测方法的流程示意图;
图7为一个实施例中反作弊检测模型构建方法以及反作弊检测方法的应用场景图;
图8为一个实施例中反作弊检测模型构建装置的结构框图;
图9为一个实施例中反作弊检测装置的结构框图;
图10为一个实施例中计算机设备的内部结构图。
具体实施方式
本申请实施例提供的方案涉及人工智能的机器学习等技术,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种反作弊检测模型构建方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤102,获取携带标签的真实训练数据,真实训练数据通过已训练的异常检测模型对携带标签的样本训练集进行数据清洗得到。
其中,真实训练数据是指已经过噪声过滤的真实训练样本,即样本训练集中的非真实训练样本已经被已训练的异常检测模型滤除。已训练的异常检测模型是指用于对存在噪声的样本训练集进行数据清洗的模型。比如,已训练的异常检测模型具体可以是指基于生成对抗网络的无监督异常检测模型。举例说明,本实施例中的异常检测模型具体可以是指多模型-基于生成对抗网络的异常检测(Mo_Gaal)模型。
其中,样本训练集是指用于训练的样本数据,样本数据是指已被确定是否为作弊数据的离线数据,包括黑样本数据和白样本数据,黑样本数据是指已被确定为作弊数据的离线数据,白样本数据是指已被确定为非作弊数据的离线数据。标签用于表征样本数据的类型,比如,标签用于表征样本数据具体是黑样本数据还是白样本数据。具体的,根据本申请中的反作弊检测方法的应用领域的不同,在构建反作弊检测模型时,所需获取的样本数据是不相同的。举例说明,在保险欺诈领域,样本数据包括用户的保费、参考年限、事故情况等特征数据。在游戏欺诈领域,样本数据包括分均伤害、玩家登陆时间、游戏时长、行进轨迹、技能释放等特征数据。需要说明的是,本申请中的样本数据具体可以是指已经向量化的特征数据,在向量化时,对于数值型特征数据可以不处理直接使用,也可以计算均值方差等,对于离散型特征数据则需要进行编码,编码方式可以为one-hot(独热编码)或者embeding。
其中,在反作弊检测领域,黑样本数据通常比较难获取,且获取的黑样本数据中往往存在一些误判的样本点(即白样本数据被误判为黑样本数据),同理,白样本数据中也必然存在一些没有被发现的黑样本数据,因此样本训练集往往是含有噪声的训练样本,如果直接使用这样的数据进行建模分析,有较大可能会使得反作弊检测模型存在偏误,导致反作弊检测准确率低,降低反作弊检测效果,因此需要在建模前使用异常检测模型对携带标签的样本训练集进行数据清洗。
具体的,服务器会先获取携带标签的样本训练集,通过已训练的异常检测模型对样本训练集中各训练样本进行判别,使已训练的异常检测模型输出与各训练样本对应的判别结果,确定训练样本是属于真实训练样本还是属于非真实训练样本(即噪声),将属于真实训练样本的训练样本筛选出来,得到携带标签的真实训练数据。
步骤104,根据真实训练数据对初始反作弊检测模型进行训练,得到待调整反作弊检测模型。
其中,初始反作弊检测模型是指用于进行反作弊检测的分类器。比如,初始反作弊检测模型具体可以是轻量级梯度提升机(Light Gradient Boosting Machine,Lightgbm)。又比如,初始反作弊检测模型具体可以是孤立森林模型。再比如,初始反作弊检测模型具体可以是随机森林模型。对于初始反作弊检测模型本实施例在此处不做具体限定。
具体的,服务器会根据真实训练数据携带的标签对初始反作弊检测模型进行有监督训练,通过反向传播不断更新初始反作弊检测模型的模型参数,得到待调整反作弊检测模型。
步骤106,获取携带标签的样本测试集,根据样本测试集对待调整反作弊检测模型进行基于模型解释的调整,得到已训练的反作弊检测模型。
其中,样本测试集包括用于对训练后得到的反作弊检测模型进行测试的样本数据。基于模型解释的调整是指利用解释性模型(如线性模型、决策树等)根据真实训练数据局部近似待调整反作弊检测模型的预测,通过对输入进行轻微的扰动,探测待调整反作弊检测模型的输出发生何种变化,根据这种变化在兴趣点(原始输入)训练一个解释性模型,基于解释性模型对误判样本数据进行分析,确定导致误判的样本特征,根据所确定的导致误判的样本特征对待调整反作弊检测模型进行调整,以使得待调整反作弊检测模型在检测时所利用的样本特征更合理,得到已训练的反作弊检测模型。其中,误判样本数据是指被待调整反作弊检测模型判别错误的样本数据。举例说明,基于模型解释的调整可以利用局部不可知解释模型(Local Interpretable Model-Agnostic Explanations,Lime)实现。
机器学习模型,如本实施例中的待调整反作弊检测模型,几乎都属于黑盒模型,这也意味着模型的可解释性总会存在问题,导致当机器学习模型出现误判时我们的第一反应是去调试参数以提升效果,而不是从本源上去分析为何会出现误判,通过借助基于模型解释的调整对待调整反作弊检测模型的误判做一个深入分析,能够对待调整反作弊检测模型进行根源上的调优。
具体的,服务器会将样本测试集中各测试样本输入待调整反作弊检测模型,得到被待调整反作弊检测模型判别错误的误判样本数据,并根据真实训练数据对用于模型解释的调整的解释性模型进行局部近似模拟,得到已训练的解释性模型,再将误判样本数据输入已训练的解释性模型,通过解释性模型输出针对误判样本数据的误判样本分析结果,根据误判样本分析结果对待调整反作弊检测模型进行调整。
其中,误判样本分析结果用于表征各样本特征对得到误判结果的影响,包括每个样本特征对误判结果的贡献度以及关联度等。根据误判样本分析结果对待调整反作弊检测模型进行调整的方式具体可以为:根据误判样本分析结果确定对误判影响大的样本特征,降低对误判影响大的样本特征的权重或将对误判影响大的样本特征删除,以降低误判的概率,将对误判影响大的样本特征删除是指不再将对误判影响大的样本特征作为反作弊检测的判别依据。上述反作弊检测模型构建方法,通过获取携带标签的真实训练数据,可以得到被数据清洗后的干净的真实训练数据,再利用该真实训练数据对初始反作弊检测模型进行训练,得到待调整反作弊检测模型,最后获取携带标签的样本测试集,根据样本测试集对待调整反作弊检测模型进行基于模型解释的调整,实现对待调整反作弊检测模型的优化,能够得到可实现准确反作弊检测的反作弊检测模型,从而利用该反作弊检测模型实现准确反作弊检测。
在一个实施例中,获取携带标签的真实训练数据包括:
获取携带标签的样本训练集;
通过已训练的异常检测模型中的判别器层对样本训练集中各训练样本进行判别,得到与各训练样本对应的判别结果;
筛选出判别结果为真实训练样本的训练样本,得到携带标签的真实训练数据。
具体的,服务器会先获取携带标签的样本训练集,该样本训练集可以为预先存储在预设数据库中的,服务器直接从预设数据库中获取即可。在获取到样本训练集后,服务器会通过已训练的异常检测模型中的判别器层对样本训练集中各训练样本进行判别,判别器层会输出训练样本归属于真实训练样本的第一概率以及归属于非真实训练样本的第二概率,通过比对第一概率和第二概率,就可以确定与训练样本对应的判别结果。当第一概率大于第二概率时,可以得到训练样本的判别结果为真实训练样本,当第一概率小于第二概率时,可以得到训练样本的判别结果为非真实训练样本。在得到与各训练样本对应的判别结果后,服务器会进一步筛选出判别结果为真实训练样本的训练样本,得到携带标签的真实训练数据。
举例说明,如图2所述,服务器通过多模型-基于生成对抗网络的异常检测(Mo_Gaal)模型中的判别器层对训练集中的黑样本以及白样本进行判别,可以输出黑样本以及白样本归属于真实训练样本的第一概率以及归属于非真实训练样本的第二概率,通过比对第一概率和第二概率,就可以得到与黑样本以及白样本对应的判别结果,筛选出判别结果为真实训练样本的黑样本以及白样本,得到清洗后的黑样本以及白样本,以清洗后的黑样本以及白样本作为最终训练集。
本实施例中,通过利用异常检测模型中的判别器层对样本训练集中各训练样本进行判别的方式,实现了对训练样本的提纯,在避免维度灾难的同时可以提供干净的真实训练数据用于反作弊检测模型训练,以提高反作弊检测的准确率和稳定性。
在一个实施例中,通过已训练的异常检测模型中的判别器层对样本训练集中各训练样本进行判别,得到与各训练样本对应的判别结果之前,还包括:
获取噪声数据以及真实样本数据;
将噪声数据输入初始异常检测模型中的生成器层,得到与噪声数据对应的非真实样本数据;
根据非真实样本数据和真实样本数据对初始异常检测模型中的判别器层进行训练,得到已训练的异常检测模型。
其中,噪声数据是指干扰正常数据的随机数。比如,噪声数据具体可以是正态分布的随机数。真实样本数据是指已被确定是否为作弊数据的历史数据。生成器层用于利用噪声数据生成与真实样本数据相似的非真实样本数据。判别器层用于有效估计数据来自真实样本数据或者生成器层的概率。
具体的,服务器会随机获取噪声数据以及真实样本数据,将噪声数据输入初始异常检测模型中的生成器层,以使生成器层根据噪声数据生成与真实样本数据相似的非真实样本数据,再根据非真实样本数据和真实样本数据对初始异常检测模型中的判别器层进行有监督训练,通过反向传播不断优化生成器层得到的非真实样本数据以及判别器层的参数,得到已训练的异常检测模型,已训练的异常检测模型可以利用训练好的判别器层进行数据清洗。
进一步的,举例说明,在本实施例中的初始异常检测模型具体可以是指Mo_Gaal模型,Mo_Gaal模型是单模型-基于生成对抗网络的异常检测(So_Gaal)模型的集成模型。为了解决维度灾难造成的信息缺失问题,将生成式对抗学习框架应用于离群点检测,So_Gaal模型实际执行了一个主动的学习过程,训练过程可通过如下公式表示:
Figure BDA0002828948200000091
其中,D是指判别器(Discriminator),G是指生成器(Generator),data是指真实样本数据,z是指噪声,该公式即是要得到判别器D和生成器G,其中判别器D要使得右侧表达式最大化,G要使得右侧表达式最小化,是个博弈训练过程。如图3所示,So_Gaal模型中包含两个深度神经网络,生成器(用于通过迭代生成与真实样本数据相似的非真实样本数据(在图3中,真实样本数据通过两个连接的小圆圈表示,非真实样本数据通过单个小圆圈表示)),判别器(用于有效估计数据来自真实样本数据或者生成器的概率)。在模型训练的早期阶段,生成器可能无法生成足够数量的非真实样本数据。这使得判别器通过一个粗略的边界(如图3中边界判断中的弧线所示)将生成器所生成的非真实样本数据与真实样本数据分开。但是,经过几次迭代之后,生成器逐渐了解了生成机制,并合成了越来越多的非真实样本数据,这些非真实样本数据出现在真实样本数据内部或接近真实样本数据的地方(如图3中边界判断中的将多个真实样本数据包围住的闭合曲线,相较于训练早期的简单弧线,能够更准确地区分真实样本数据和非真实样本数据)。其中,本实施例中的生成器和判别器都是采用全连接层的深度神经网络,生成器的输出维度数为特征数据的维度数,判别器的输出维度为1或2(二分类),其中具体的隐藏层数与神经元节点数需要按照具体业务需求定制化指定,其中的损失函数均为二分类交叉熵(生成器的损失也来源于判别器)。
模型训练结果表明,生成器能够准确地刻画出包含非真实样本数据在内的潜在数据分布,可以在保证生成数据与原始数据分布一致的情况下,增加数据的多样性,降低判别器过拟合的概率。生成器通过生成非真实样本数据有效地提高了判别器的准确性,这实际上是一个主动的学习过程。与现有的基于主动学习的异常检测方法相比,So_Gaal模型可以直接生成有价值的数据点。此外,由于生成对抗学习框架的强大学习能力,生成器可以捕获复杂数据结构的深层表示,而无需对生成机制进行任何假设,这更有可能提供一致的良好结果。
进一步的,Mo_Gaal模型是So_Gaal模型的模型集成,训练过程可通过如下公式表示:
Figure BDA0002828948200000101
Figure BDA0002828948200000102
与上述对于So_Gaal模型的训练过程的参数表示相同,公式中的D是指判别器,G是指生成器,z是指噪声。如图4所示,Mo_Gaal模型中包含K个生成器,判别器,根据其相似输出D(x),将噪声数据分成K份,相似输出是指空间平滑过渡的逆过程(输出相似的样本在样本空间中更有可能彼此相似,每个子集的数据也有可能彼此相似),生成与Xi相似的值,生成器的目标值D(Gi(Z))从1变成Ti。采用这种集成的方式,能够增强模型的鲁棒性,使得经过Mo_Gaal模型的训练与预测得到更为干净的真实训练数据。
本实施例中,通过利用初始异常检测模型中的生成器层根据噪声数据生成非真实样本数据,能够增加数据的多样性,进而根据非真实样本数据和真实样本数据对初始异常检测模型中的判别器层进行训练,能够降低判别器过拟合的概率,提高判别器的准确性,从而能够得到可实现准确数据清洗的异常检测模型,在避免“维度灾难”的同时可以提高检测的稳定性。
在一个实施例中,根据样本测试集对待调整反作弊检测模型进行基于模型解释的调整,得到已训练的反作弊检测模型包括:
将样本测试集中各测试样本输入待调整反作弊检测模型,得到被所述待调整反作弊检测模型判别错误的误判样本数据;
根据真实训练数据对预设解释性模型进行训练,得到已训练的解释性模型,并将误判样本数据输入已训练的解释性模型,得到误判样本分析结果;
根据误判样本分析结果对待调整反作弊检测模型进行调整,得到已训练的反作弊检测模型。
其中,被所述待调整反作弊检测模型判别错误的误判样本数据是指判别结果与标签不同的测试样本。误判样本分析结果用于表征各样本特征对得到误判结果的影响,包括每个样本特征对误判结果的贡献度以及关联度等。
具体的,服务器通过将样本测试集中各测试样本输入待调整反作弊检测模型,可以使得待调整反作弊检测模型输入与测试样本对应的预测结果,通过比对预测结果和测试样本携带的标签,可以确定被所述待调整反作弊检测模型判别错误的误判样本数据,再根据真实训练数据对预设解释性模型进行训练,可以得到与待调整反作弊检测模型近似的、已训练的解释性模型,通过将误判样本数据输入已训练的解释性模型,能够让机器学习解释模型对误判样本数据进行分析,得到误判样本分析结果,最后服务器可以根据误判样本分析结果对待调整反作弊检测模型进行调整,得到已训练的反作弊检测模型。
进一步的,在误判样本分析结果中列出了对于误判样本数据来说,每个样本特征的贡献度以及关联度等,服务器通过误判样本分析结果就可以确定是哪些样本特征容易造成误判,进而根据容易造成误判的样本特征对待调整反作弊检测模型进行调整,得到已训练的反作弊检测模型,调整的方式具体可以为对样本特征进行删除或者修正等,本实施例在此处不做具体限定。
举例说明,本实施例中的待调整反作弊检测模型具体可以是树模型Lightgbm,机器学习解释模型具体可以是Lime模型,如图5所示服务器首先利用清洗后训练集对Lightgbm模型进行训练,得到待调整Lightgbm模型,再将测试集输入待调整Lightgbm模型,得到被所述待调整反作弊检测模型判别错误的误判样本数据,根据清洗后的训练集对Lime模型进行训练,得到已训练的Lime模型,将误判样本数据输入已训练的Lime模型,得到误判样本分析结果,根据误判样本分析结果对待调整Lightgbm模型进行调整,得到已训练的Lightgbm模型,以此实现利用Lime模型对误判样本数据的误判结果进行解释,并通过得到的误判样本分析结果对待调整Lightbm模型进行调整,从而从根源上对模型特征进行了优化。
本实施例中,在模型优化阶段,不同于传统的参数调试,创新性地采用预设解释性模型对测试集的误判结果进行解析,从根源上对待调整反作弊检测模型的模型特征进行优化,能够得到可实现准确检测的反作弊检测模型。
在一个实施例中,如图6所示,提供了一种反作弊检测方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤602,获取待检测数据。
其中,待检测数据是指待检测是否为作弊数据的数据。
具体的,服务器会直接从外网获取待检测数据。这里的待检测数据具体可以是指已经向量化的特征数据,也可以是指未向量化的特征数据。如果是未向量化的特征数据,需要先对其进行特征计算,将其转化为向量化的特征数据。
步骤604,通过已训练的反作弊检测模型对待检测数据进行反作弊检测,得到作弊数据,已训练的反作弊检测模型根据上述反作弊检测模型构建方法构建。
其中,作弊数据是指待检测数据中被检测为与作弊相关的数据。
具体的,服务器会将待检测数据输入已训练的反作弊检测模型中,得到与待检测数据对应的判别结果,根据判别结果确定作弊数据。
上述反作弊检测方法,通过利用可实现准确反作弊检测的反作弊检测模型对待检测数据进行反作弊检测,能够实现准确反作弊检测。
在一个实施例中,通过已训练的反作弊检测模型对待检测数据进行反作弊检测,得到作弊数据包括:
通过已训练的反作弊检测模型对待检测数据进行反作弊检测,得到疑似作弊数据;
对疑似作弊数据进行异常检测,得到作弊数据。
其中,疑似作弊数据是指被已训练的反作弊检测模型检测为作弊数据的待检测数据。
具体的,服务器会通过已训练的反作弊检测模型对所述待检测数据进行反作弊检测,得到疑似作弊数据。在得到疑似作弊数据之后,服务器会进一步对疑似作弊数据进行异常检测,得到作弊数据,通过这种方式可以进一步过滤数据,使得到的作弊数据更加可靠,进一步降低了误判风险。进一步的,对疑似作弊数据进行异常检测,得到作弊数据的方式可以为:服务器根据预设疑似作弊数据异常检测模型对疑似作弊数据进行异常检测,得到作弊数据。比如,预设疑似作弊数据异常检测模型具体可以是预设孤立森林模型。
其中,孤立森林模型能够孤立异常点,在孤立森林中,异常点被定义为容易被孤立的离群点,即分布稀疏且离密度高的群体较远的点。在特征空间里,分布稀疏的区域表示事件发生在该区域的概率很低,因而可以认为落在这些区域里的数据是异常的。孤立森林算法是一种适用于连续数据的无监督异常检测方法,即不需要有标记的样本来训练,但特征需要是连续的,孤立森林构建的思想是,递归地随机分割数据集,直到所有的样本点都是孤立的。在这种随机分割的策略下,异常点通常具有较短的路径。
本实施例中,通过已训练的反作弊检测模型对所述待检测数据进行反作弊检测,得到疑似作弊数据,对疑似作弊数据进行异常检测,得到作弊数据,能够进一步过滤数据,使得到的作弊数据更加可靠,进一步降低了误判风险。
在一个实施例中,对疑似作弊数据进行异常检测,得到作弊数据包括:
将疑似作弊数据输入预设孤立森林模型,得到与疑似作弊数据对应的孤立森林路径长度;
根据孤立森林路径长度,得到作弊数据;
其中,预设孤立森林模型由以下方式得到:获取历史反作弊检测数据;根据历史反作弊检测数据以及预设孤立森林算法,构建得到所述预设孤立森林模型。
其中,历史反作弊检测数据是指已确定为作弊数据的历史数据。
具体的,服务器通过将疑似作弊数据输入预设孤立森林模型,可以得到与疑似作弊数据对应的孤立森林路径长度,进而可以根据孤立森林路径长度和预设异常分数计算公式,得到与疑似作弊数据对应的异常分数,最后通过比对异常分数和预设异常分数阈值,得到作弊数据。其中,预设异常分数计算公式和异常分数阈值可按照需要自行设置,本实施例在此处不做具体限定。其中的预设孤立森林模型由以下方式得到:服务器先获取历史反作弊检测数据,根据历史反作弊检测数据以及预设孤立森林算法,对历史反作弊检测数据进行随机分割,得到与历史反作弊检测数据对应的多个二叉树,以多个二叉树构建孤立森林模型。
举例说明,假设需要对T时期的疑似作弊数据进行异常检测,服务器会先获取T-1周期中的历史反作弊检测数据进行训练,根据预设孤立森林算法,对T-1周期中的历史反作弊检测数据进行随机分割,构建孤立森林模型,再根据孤立森林模型对疑似作弊数据进行异常检测,得到作弊数据。
本实施例中,通过将疑似作弊数据输入预设孤立森林模型,得到与疑似作弊数据对应的孤立森林路径长度,根据孤立森林路径长度,得到作弊数据,能够实现对作弊数据的确定。
本申请还提供一种应用场景,该应用场景应用上述的反作弊检测模型构建方法以及反作弊检测方法。具体地,如图7所示,该反作弊检测模型构建方法以及反作弊检测方法在该应用场景的应用如下:
服务器首先获取训练数据(包括携带标签的样本训练集和样本测试集),对训练数据中的样本训练集进行标签提取和标签清洗,得到携带标签的真实训练数据(即通过已训练的异常检测模型对样本训练集进行数据清洗,得到携带标签的真实训练数据),根据携带标签的真实训练数据进行模型训练预评估,得到已训练的反作弊检测模型(即根据真实训练数据对初始反作弊检测模型进行训练,得到待调整反作弊检测模型,根据样本测试集对待调整反作弊检测模型进行基于模型解释的调整,得到已训练的反作弊检测模型),对已训练的反作弊检测模型进行部署上线,获取实时外网数据,对实时外网数据进行特征计算,得到待检测数据,利用已部署的反作弊检测模型对待检测数据进行反作弊检测,得到判黑样本(即疑似作弊数据),对判黑样本进行异常检测,得到作弊数据,根据作弊数据,推送处罚。
应该理解的是,虽然上述实施例涉及的各流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述实施例涉及的各流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图8所示,提供了一种反作弊检测模型构建装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:训练数据获取模块802、训练模块804和优化模块806,其中:
训练数据获取模块802,用于获取携带标签的真实训练数据,真实训练数据通过已训练的异常检测模型对携带标签的样本训练集进行数据清洗得到;
训练模块804,用于根据真实训练数据对初始反作弊检测模型进行训练,得到待调整反作弊检测模型;
优化模块806,用于获取携带标签的样本测试集,根据样本测试集对待调整反作弊检测模型进行基于模型解释的调整,得到已训练的反作弊检测模型。
上述反作弊检测模型构建装置,通过获取携带标签的真实训练数据,可以得到被数据清洗后的干净的真实训练数据,再利用该真实训练数据对初始反作弊检测模型进行训练,得到待调整反作弊检测模型,最后获取携带标签的样本测试集,根据样本测试集对待调整反作弊检测模型进行基于模型解释的调整,实现对待调整反作弊检测模型的优化,能够得到可实现准确反作弊检测的反作弊检测模型,从而利用该反作弊检测模型实现准确反作弊检测。
在一个实施例中,训练数据获取模块还用于获取携带标签的样本训练集,通过已训练的异常检测模型中的判别器层对样本训练集中各训练样本进行判别,得到与各训练样本对应的判别结果,筛选出判别结果为真实训练样本的训练样本,得到携带标签的真实训练数据。
在一个实施例中,反作弊检测模型构建装置还包括异常检测模型构建模块,异常检测模型构建模块用于获取噪声数据以及真实样本数据,将噪声数据输入初始异常检测模型中的生成器层,得到与噪声数据对应的非真实样本数据,根据非真实样本数据和真实样本数据对初始异常检测模型中的判别器层进行训练,得到已训练的异常检测模型。
在一个实施例中,优化模块还用于将样本测试集中各测试样本输入待调整反作弊检测模型,得到被所述待调整反作弊检测模型判别错误的误判样本数据,根据真实训练数据对预设解释性模型进行训练,得到已训练的解释性模型,将误判样本数据输入已训练的解释性模型,得到误判样本分析结果,根据误判样本分析结果对待调整反作弊检测模型进行调整,得到已训练的反作弊检测模型。
在一个实施例中,如图9所示,提供了一种反作弊检测装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:数据获取模块902和检测模块904,其中:
待检测数据获取模块902,用于获取待检测数据;
检测模块904,用于通过已训练的反作弊检测模型对待检测数据进行反作弊检测,得到作弊数据,已训练的反作弊检测模型根据上述反作弊检测模型构建方法构建。
上述反作弊检测装置,通过利用可实现准确反作弊检测的反作弊检测模型对待检测数据进行反作弊检测,能够实现准确反作弊检测。
在一个实施例中,检测模块还用于通过已训练的反作弊检测模型对待检测数据进行反作弊检测,得到疑似作弊数据,对疑似作弊数据进行异常检测,得到作弊数据。
在一个实施例中,检测模块还用于将疑似作弊数据输入预设孤立森林模型,得到与疑似作弊数据对应的孤立森林路径长度,根据孤立森林路径长度,得到作弊数据,其中,预设孤立森林模型由以下方式得到:获取历史反作弊检测数据;根据历史反作弊检测数据以及预设孤立森林算法,构建得到预设孤立森林模型。
关于反作弊检测模型构建装置以及反作弊检测装置的具体限定可以参见上文中对于反作弊检测模型构建方法以及反作弊检测方法的限定,在此不再赘述。上述反作弊检测模型构建装置以及反作弊检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器1002、存储器和网络接口1004。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质1006、内存储器1008。该非易失性存储介质存储有操作系统1010、计算机程序1012和数据库1014。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储携带标签的样本数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种反作弊检测模型构建方法以及反作弊检测方法。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种反作弊检测模型构建方法,其特征在于,所述方法包括:
获取携带标签的真实训练数据,所述真实训练数据通过已训练的异常检测模型对携带标签的样本训练集进行数据清洗得到;
根据所述真实训练数据对初始反作弊检测模型进行训练,得到待调整反作弊检测模型;
获取携带标签的样本测试集,根据所述样本测试集对所述待调整反作弊检测模型进行基于模型解释的调整,得到已训练的反作弊检测模型。
2.根据权利要求1所述的方法,其特征在于,所述获取携带标签的真实训练数据包括:
获取携带标签的样本训练集;
通过已训练的异常检测模型中的判别器层对所述样本训练集中各训练样本进行判别,得到与各训练样本对应的判别结果;
筛选出所述判别结果为真实训练样本的训练样本,得到携带标签的真实训练数据。
3.根据权利要求2所述的方法,其特征在于,所述通过已训练的异常检测模型中的判别器层对所述样本训练集中各训练样本进行判别,得到与各训练样本对应的判别结果之前,还包括:
获取噪声数据以及真实样本数据;
将所述噪声数据输入初始异常检测模型中的生成器层,得到与所述噪声数据对应的非真实样本数据;
根据所述非真实样本数据和所述真实样本数据对所述初始异常检测模型中的判别器层进行训练,得到已训练的异常检测模型。
4.根据权利要求1所述的方法,其特征在于,所述根据所述样本测试集对所述待调整反作弊检测模型进行基于模型解释的调整,得到已训练的反作弊检测模型包括:
将所述样本测试集中各测试样本输入所述待调整反作弊检测模型,得到被所述待调整反作弊检测模型判别错误的误判样本数据;
根据所述真实训练数据对预设解释性模型进行训练,得到已训练的解释性模型,并将所述误判样本数据输入所述已训练的解释性模型,得到误判样本分析结果;
根据所述误判样本分析结果对所述待调整反作弊检测模型进行调整,得到已训练的反作弊检测模型。
5.一种反作弊检测方法,其特征在于,包括:
获取待检测数据;
通过已训练的反作弊检测模型对所述待检测数据进行反作弊检测,得到作弊数据,所述已训练的反作弊检测模型根据如权利要求1-4任意一项所述的方法构建。
6.根据权利要求5所述的方法,其特征在于,所述通过已训练的反作弊检测模型对所述待检测数据进行反作弊检测,得到作弊数据包括:
通过已训练的反作弊检测模型对所述待检测数据进行反作弊检测,得到疑似作弊数据;
对所述疑似作弊数据进行异常检测,得到作弊数据。
7.根据权利要求6所述的方法,其特征在于,所述对所述疑似作弊数据进行异常检测,得到作弊数据包括:
将所述疑似作弊数据输入预设孤立森林模型,得到与所述疑似作弊数据对应的孤立森林路径长度;
根据所述孤立森林路径长度,得到作弊数据;
其中,所述预设孤立森林模型由以下方式得到:获取历史反作弊检测数据;根据所述历史反作弊检测数据以及预设孤立森林算法,构建得到所述预设孤立森林模型。
8.一种反作弊检测模型构建装置,其特征在于,所述装置包括:
训练数据获取模块,用于获取携带标签的真实训练数据,所述真实训练数据通过已训练的异常检测模型对携带标签的样本训练集进行数据清洗得到;
训练模块,用于根据所述真实训练数据对初始反作弊检测模型进行训练,得到待调整反作弊检测模型;
优化模块,用于获取携带标签的样本测试集,根据所述样本测试集对所述待调整反作弊检测模型进行基于模型解释的调整,得到已训练的反作弊检测模型。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202011437329.6A 2020-12-10 2020-12-10 反作弊检测模型构建方法以及反作弊检测方法 Pending CN114618167A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011437329.6A CN114618167A (zh) 2020-12-10 2020-12-10 反作弊检测模型构建方法以及反作弊检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011437329.6A CN114618167A (zh) 2020-12-10 2020-12-10 反作弊检测模型构建方法以及反作弊检测方法

Publications (1)

Publication Number Publication Date
CN114618167A true CN114618167A (zh) 2022-06-14

Family

ID=81895899

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011437329.6A Pending CN114618167A (zh) 2020-12-10 2020-12-10 反作弊检测模型构建方法以及反作弊检测方法

Country Status (1)

Country Link
CN (1) CN114618167A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115774870A (zh) * 2023-02-13 2023-03-10 合肥智能语音创新发展有限公司 设备授权作弊检测方法、装置、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115774870A (zh) * 2023-02-13 2023-03-10 合肥智能语音创新发展有限公司 设备授权作弊检测方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Bashar et al. TAnoGAN: Time series anomaly detection with generative adversarial networks
US10891524B2 (en) Method and an apparatus for evaluating generative machine learning model
DeVries et al. Learning confidence for out-of-distribution detection in neural networks
US11657269B2 (en) Systems and methods for verification of discriminative models
Ismail et al. Benchmarking deep learning interpretability in time series predictions
Lopez-Paz et al. Discovering causal signals in images
EP3796228A1 (en) Device and method for generating a counterfactual data sample for a neural network
CN113272827A (zh) 卷积神经网络中分类决策的验证
CN111523421B (zh) 基于深度学习融合各种交互信息的多人行为检测方法及系统
WO2019053052A1 (en) METHOD FOR (RE-) TRAINING MACHINE LEARNING COMPONENT
US11606393B2 (en) Node classification in dynamic networks using graph factorization
Al-Nima et al. Robustness and performance of deep reinforcement learning
Gorokhovatskyi et al. Explanation of CNN image classifiers with hiding parts
CN112633310A (zh) 具有改进的训练鲁棒性地对传感器数据进行分类的方法和系统
CN113537277A (zh) 确定分类的解释
CN116668198B (zh) 基于深度学习的流量回放测试方法、装置、设备及介质
KR20190125029A (ko) 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 방법 및 장치
CN116192500A (zh) 一种对抗标签噪声的恶意流量检测装置及方法
Avila et al. Bayesian restoration of audio signals degraded by impulsive noise modeled as individual pulses
Simon et al. Revisiting precision and recall definition for generative model evaluation
Hashemi et al. Runtime monitoring for out-of-distribution detection in object detection neural networks
CN114618167A (zh) 反作弊检测模型构建方法以及反作弊检测方法
CN109934352B (zh) 智能模型的自动进化方法
EP3696771A1 (en) System for processing an input instance, method, and medium
US20220215228A1 (en) Detection method, computer-readable recording medium storing detection program, and detection device

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination