CN109214444B - 基于孪生神经网络和gmm的游戏防沉迷判定系统及方法 - Google Patents

基于孪生神经网络和gmm的游戏防沉迷判定系统及方法 Download PDF

Info

Publication number
CN109214444B
CN109214444B CN201810974944.7A CN201810974944A CN109214444B CN 109214444 B CN109214444 B CN 109214444B CN 201810974944 A CN201810974944 A CN 201810974944A CN 109214444 B CN109214444 B CN 109214444B
Authority
CN
China
Prior art keywords
game
user
neural network
users
game users
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810974944.7A
Other languages
English (en)
Other versions
CN109214444A (zh
Inventor
骆源
方品
徐彬
顾振兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaovo Technology Co ltd
Shanghai Jiaotong University
Original Assignee
Xiaovo Technology Co ltd
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiaovo Technology Co ltd, Shanghai Jiaotong University filed Critical Xiaovo Technology Co ltd
Priority to CN201810974944.7A priority Critical patent/CN109214444B/zh
Publication of CN109214444A publication Critical patent/CN109214444A/zh
Application granted granted Critical
Publication of CN109214444B publication Critical patent/CN109214444B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/70Game security or game management aspects
    • A63F13/75Enforcing rules, e.g. detecting foul play or generating lists of cheating players
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/70Game security or game management aspects
    • A63F13/79Game security or game management aspects involving player-related data, e.g. identities, accounts, preferences or play histories
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Abstract

本发明提供一种基于孪生神经网络和GMM的游戏防沉迷判定系统及方法,所述方法包括:利用孪生神经网络模型对游戏用户的游戏数据进行特征提取,并对不同类别的游戏用户的特征进行差异性学习训练,使得沉迷游戏用户的用户特征和未沉迷游戏用户的用户特征具有区别距离;利用高斯混合模型对游戏用户的用户特征进行学习训练,学习沉迷游戏用户的用户特征和未沉迷游戏用户的用户特征的特征向量的概率分布;利用训练后的孪生神经网络模型提取待判定用户的游戏数据的特征向量,利用训练后的高斯混合模型计算待判定用户的游戏数据的特征向量的似然度,并根据似然度确定待判定用户是否为沉迷游戏的用户。本发明利用模型对用户是否沉迷与游戏进行判定。

Description

基于孪生神经网络和GMM的游戏防沉迷判定系统及方法
技术领域
本发明涉及机器学习技术领域,特别是涉及一种基于孪生神经网络和GMM的游戏防沉迷判定系统及方法。
背景技术
游戏防沉迷系统旨在解决游戏用户沉迷网络游戏的现状,为了能有效判定游戏用户近期是否沉迷游戏,对沉迷于游戏的用户使用提醒和游戏限制等措施来改变部分游戏用户的不良游戏习惯。
2005年8月,新闻出版总署发布《网络游戏防沉迷系统开发标准》,要求国内7家大型网络游戏运营公司预备开发防沉迷系统。2006年3月,新闻出版总署发布《关于保护未成年人身心健康实施网络游戏防沉迷系统的通知》,决定于2007年4月15日起在中国推行网络游戏防沉迷系统。2007年7月16日,防沉迷系统全面实施,至今已超过十年。然而到2016年,没有设置防沉迷系统的游戏数量仍占到当年所有测评游戏数量的71%。
目前游戏防沉迷系统的主要技术瓶颈在于无法对沉迷行为做出准确且智能的判定。目前常用的判定方法通常是通过预设定的一个游戏时长或游戏内消费的阈值进行判定。这种方法缺少对用户的年龄,具体游戏时间,收入等的考虑,因此显得是呆板和不智能。缺少一种准确且智能的游戏沉迷判定方法也是阻碍众多游戏厂商开发游戏防沉迷系统的重要因素。
发明内容
为了解决上述的以及其他潜在的技术问题,本发明的实施例提供了一种基于孪生神经网络和GMM的游戏防沉迷判定方法,所述基于孪生神经网络和GMM的游戏防沉迷判定方法包括:利用孪生神经网络模型对游戏用户的游戏数据进行特征提取,并对不同类别的游戏用户的特征进行差异性学习训练,使得沉迷游戏用户的用户特征和未沉迷游戏用户的用户特征具有区别距离;利用高斯混合模型对游戏用户的用户特征进行学习训练,学习沉迷游戏用户的用户特征和未沉迷游戏用户的用户特征的特征向量的概率分布;利用学习训练后的所述孪生神经网络模型提取待判定用户的游戏数据的特征向量,利用学习训练后的所述高斯混合模型计算所述待判定用户的游戏数据的特征向量的似然度,并根据所述似然度确定待判定用户是否为沉迷游戏的用户。
于本发明的一实施例中,所述孪生神经网络模型具有两个相同结网络结构的第一层神经网络和第二层神经网络;所述第一层神经网络和所述第二层神经网络分别输出游戏用户的特征向量,所述孪生神经网络模型的输出层输出所述第一层神经网络输出的游戏用户的特征向量与所述第二层神经网络输出的游戏用户的特征向量之间的绝对差值。
于本发明的一实施例中,所述利用孪生神经网络模型对游戏用户的游戏数据进行特征提取,并对不同类别的游戏用户的特征进行差异性学习训练中,每次选取两个游戏用户的特征向量,分别同时输入到所述第一层神经网络和所述第二层神经网络。
于本发明的一实施例中,所述利用学习训练后的所述高斯混合模型计算所述待判定用户的游戏数据的特征向量的似然度,并根据所述似然度确定待判定用户是否为沉迷游戏的用户的一种实现方式为:将待判定用户的特征向量分别带入沉迷游戏用户的用户特征和未沉迷游戏用户的用户特征的特征向量的概率分布中计算似然度,取两个似然度大的作为判定是否为沉迷游戏的用户的待判定用户的分类标签。
于本发明的一实施例中,所述游戏数据至少包括游戏时长,游戏投入金钱,游戏在线时间以及用户年龄。
本发明的实施例还提供一种基于孪生神经网络和GMM的游戏防沉迷判定系统,所述基于孪生神经网络和GMM的游戏防沉迷判定系统包括:孪生神经网络模型训练模块,用于利用孪生神经网络模型对游戏用户的游戏数据进行特征提取,并对不同类别的游戏用户的特征进行差异性学习训练,使得沉迷游戏用户的用户特征和未沉迷游戏用户的用户特征具有区别距离;高斯混合模型训练模块,用于利用高斯混合模型对游戏用户的用户特征进行学习训练,学习沉迷游戏用户的用户特征和未沉迷游戏用户的用户特征的特征向量的概率分布;判定模块,用于利用学习训练后的所述孪生神经网络模型提取待判定用户的游戏数据的特征向量,利用学习训练后的所述高斯混合模型计算所述待判定用户的游戏数据的特征向量的似然度,并根据所述似然度确定待判定用户是否为沉迷游戏的用户。
于本发明的一实施例中,所述孪生神经网络模型具有两个相同结网络结构的第一层神经网络和第二层神经网络;所述第一层神经网络和所述第二层神经网络分别输出游戏用户的特征向量,所述孪生神经网络模型的输出层输出所述第一层神经网络输出的游戏用户的特征向量与所述第二层神经网络输出的游戏用户的特征向量之间的绝对差值。
于本发明的一实施例中,所述利用孪生神经网络模型对游戏用户的游戏数据进行特征提取,并对不同类别的游戏用户的特征进行差异性学习训练中,每次选取两个游戏用户的特征向量,分别同时输入到所述第一层神经网络和所述第二层神经网络。
于本发明的一实施例中,所述判定模块确定待判定用户是否为沉迷游戏的用户的一种实现方式为:将待判定用户的特征向量分别带入沉迷游戏用户的用户特征和未沉迷游戏用户的用户特征的特征向量的概率分布中计算似然度,取两个似然度大的作为判定是否为沉迷游戏的用户的待判定用户的分类标签。
于本发明的一实施例中,所述游戏数据至少包括游戏时长,游戏投入金钱,游戏在线时间以及用户年龄。
如上所述,本发明的基于孪生神经网络和GMM的游戏防沉迷判定系统及方法具有以下
有益效果:
1、本发明提供的基于Siamese Network和GMM的少样本游戏用户沉迷判定方法,利用模型对用户是否沉迷与游戏进行智能和准确的判定,通过机器学习方法,综合考虑多个因素,克服现有判定方法死板、不准确的缺陷。
2、本发明使用一对单游戏用户随机组合生成的新样本对作为训练对象,极大增加了训练样本量,减小游戏沉迷判定系统对大量标注用户数据的依赖。
3、本发明提高了在少量游戏用户数据下游戏沉迷判定的性能表现。
4、本发明提出了一种游戏用户的特征向量的表示方式。
5、本发明具有极强的普遍适用性(适用于各类游戏)。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1显示为本发明的基于孪生神经网络和GMM的游戏防沉迷判定方法的流程示意图。
图2显示为本发明的基于孪生神经网络和GMM的游戏防沉迷判定方法中以游戏用户对作为输入的孪生神经网络示意图。
图3显示为本发明的基于孪生神经网络和GMM的游戏防沉迷判定方法中卷积结构的孪生神经网络示意图。
图4显示为本发明的基于孪生神经网络和GMM的游戏防沉迷判定方法中高斯混合模型基于游戏用户特征的表示学习示意图。
图5显示为本发明的基于孪生神经网络和GMM的游戏防沉迷判定方法的工作过程示意图。
图6显示为本发明的基于孪生神经网络和GMM的游戏防沉迷判定系统的原理框图。
元件标号说明
100 游戏防沉迷判定系统
110 孪生神经网络模型训练模块
120 高斯混合模型训练模块
130 判定模块
S110~S130 步骤
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1至图6。须知,本说明书所附图式所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。同时,本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
本发明属于机器学习和大数据领域,利用已有用户的游戏数据进行机器学习建模,利用机器学习方法,通过对少量游戏用户数据样本的学习进行建模,接着使用建模得到的模型对测试数据进行分类,即能对用户是否沉迷游戏进行更加智能和准确的判定。
本实施例为一种基于孪生神经网络和GMM的游戏防沉迷判定系统和方法,使用大数据和机器学习领域中的技术,通过收集用户的游戏数据,利用机器学习技术对用户数据进行建模,利用孪生神经网络(Siamese Network)对用户是否沉迷与游戏进行智能和准确的判定。有效的机器学习通常需要大量的标注数据,然而为得到大量的标注数据通常需要极大的开销。为了克服上述问题,本专利使用Siamese Network的对称神经网络对数据进行表示学习,通过充分使用数据对间的组合关系,使得训练样本量大幅增加,以此来解决训练样本数量偏少带来的性能下降问题。
本专利同时使用GMM(高斯混合模型)来对Siamese Network学习到的特征的概率分布进行表示。通过GMM得到的概率分布来计算用户特征的在各个概率模型上的似然度来进行分类。
为了对用户沉迷行为进行准确的判定,同时为减少对大量标注数据的依赖,本发明提出了一种基于Siamese Network和GMM的少量游戏用户样本游戏沉迷判定方法。该发明能充分组合有限标注数据来极大程度的增加训练游戏用户样本数量,从而得到有效的用户的特征向量表示。该向量表示能使同一类的用户的特征向量间的距离小,而不同分类的用户的特征向量间的距离大。接着使用GMM对用户的特征向量的概率分布进行学习。使用以上两个模型能够减少对大量标注数据的依赖,对用户的游戏沉迷行为进行智能和准确的判定。
以下将详细阐述本实施例的基于孪生神经网络和GMM的游戏防沉迷判定系统及方法的原理及实施方式,使本领域技术人员不需要创造性劳动即可理解本实施例的基于孪生神经网络和GMM的游戏防沉迷判定系统及方法。
如图1所示,本发明的实施例提供了提供了一种基于孪生神经网络和GMM的游戏防沉迷判定方法,所述基于孪生神经网络和GMM的游戏防沉迷判定方法包括:
步骤S110,利用孪生神经网络模型对游戏用户的游戏数据进行特征提取,并对不同类别的游戏用户的特征进行差异性学习训练,使得沉迷游戏用户的用户特征和未沉迷游戏用户的用户特征具有区别距离;
步骤S120,利用高斯混合模型对游戏用户的用户特征进行学习训练,学习沉迷游戏用户的用户特征和未沉迷游戏用户的用户特征的特征向量的概率分布;
步骤S130,利用学习训练后的所述孪生神经网络模型提取待判定用户的游戏数据的特征向量,利用学习训练后的所述高斯混合模型计算所述待判定用户的游戏数据的特征向量的似然度,并根据所述似然度确定待判定用户是否为沉迷游戏的用户。
以下对本实施例的步骤S110至步骤S130进行详细说明。
步骤S110,利用孪生神经网络模型对游戏用户的游戏数据进行特征提取,并对不同类别的游戏用户的特征进行差异性学习训练,使得沉迷游戏用户的用户特征和未沉迷游戏用户的用户特征具有区别距离。
基于深度神经网络Siamese Network对游戏用户的游戏数据进行特征提取,并对不同类别的游戏用户(是否沉迷游戏)的特征进行差异性学习,使得沉迷和未沉迷游戏用户的特征表示具有尽量大的距离。
使用Siamese Network对游戏数据进行特征表示。其特点在于使用深度神经网络通过游戏用户的游戏数据对游戏用户进行特征表示,能够方便的将游戏用户的特征向量投入到后续的机器学习方法中。
本发明所提出的基于孪生神经网络模型(Siamese Network)和高斯混合模型(GMM)的少量游戏用户样本游戏沉迷判定方法,结合使用Siamese Network和GMM两个模型,避免了对大量已标注数据的依赖,智能且准确的对游戏沉迷行为进行判定。
于本实施例中,所述游戏数据至少包括游戏时长,游戏投入金钱,游戏在线时间以及用户年龄。
使用Siamese Network将用户的游戏数据组合成对,将一对游戏用户数据的组合当作一个输入,以此极大提高了训练数据的样本量;并通过约束使得学习到的游戏用户的特征向量具有同一类别的特征向量距离近,不同类别的特征向量距离远的特点。
具体地,于本实施例中,如图2所示,所述孪生神经网络模型具有两个相同结网络结构的第一层神经网络和第二层神经网络;所述第一层神经网络和所述第二层神经网络分别输出游戏用户的特征向量,所述孪生神经网络模型的输出层输出所述第一层神经网络输出的游戏用户的特征向量与所述第二层神经网络输出的游戏用户的特征向量之间的绝对差值。
于本实施例中,所述利用孪生神经网络模型对游戏用户的游戏数据进行特征提取,并对不同类别的游戏用户的特征进行差异性学习训练中,每次选取两个游戏用户的特征向量,分别同时输入到所述第一层神经网络和所述第二层神经网络。
即在使用Siamese Network对用户数据进行特征向量的学习时,使用图2的神经网络结构。该神经网络结构由上下对称的两部分组成,在整个前向传播和反向训练中,上下两个神经网络始终具有相同的网络结构和网络参数。每次训练时同时放入两个游戏用户的数据,将神经网络的倒数第二层作为游戏用户的特征向量。对于两个游戏用户的特征向量,如果两个用户属于同一类(同为沉迷用户或同为非沉迷用户),最后一层的目标函数使得同一类的两个样本特征向量距离近;相反地,不同样本(非沉迷用户和沉迷用户)的特征向量距离远。
本实施例中的Siamese Network的两个游戏用户通过了完全相同共享参数的网络,然后使用绝对差分作为神经网络的输出。Siamese Network的通用网络结构图如附图2所示,它由上下两个共享参数而完全一模一样的神经网络构成,每次随机挑选两位游戏用户的数据作为Siamese Network的一对输入,通过若干层隐含层的变换后,倒数第二层表示两个输入游戏用户样本的特征向量,最后一层输出是两个特征向量的绝对差值。SiameseNetwork的训练目标函数是使得同一类的游戏用户样本的特征向量的距离近,而不同分类的特征向量的距离远。
在本实施例中,在Siamese Network的思路下使用卷积升级网络作特征提取。整个网络的结构如附图3所示:输入依次通过64通道的10×10卷积核,relu->max pool->128通道的7×7卷积核,relu->max pool->128通道的4×4卷积核,relu->max pool->256通道的4×4卷积核进行变换。本发明使用Siamese Network把输入降低到越来越小的3d张量上,最终它们经过一个4096神经元的全连接层。这个全连接层可以看作样本的特征向量的表示。网络输出是两个输入样本的特征向量的绝对差的一维范数。
随机组合游戏用户的游戏数据方法进行机器学习训练。其特征在于利用随机组合的方法,极大提高了训练样本量,缓解机器学习系统对大量已标注数据需求,提高了本机器学习系统在预测游戏用户是否沉迷时的性能表现。
步骤S120,利用高斯混合模型对游戏用户的用户特征进行学习训练,学习沉迷游戏用户的用户特征和未沉迷游戏用户的用户特征的特征向量的概率分布。
使用GMM(高斯混合模型)对游戏用户的特征进行表示学习,利用GMM学习不同类别游戏用户的特征向量的概率分布。将深度神经网络Siamese Network中学习到的游戏用户的特征向量作为GMM输入的方法。其特征在于充分利用了深度学习极强的抽象表达能力,利用GMM的表示学习能力来表达了游戏用户的概率分布。
具体地,使用GMM(高斯混合模型)对Siamese Network训练得到的游戏用户特征进行分类。GMM原理如图4,GMM实际学习了特征向量的概率分布。结合Siamese Network学习到的特征向量,GMM能将这些特征向量分为两类。因为在Siamese Network进行训练的过程中,我们约束使得同一类特征向量的距离近,而不同分类的特征向量的距离远。因此使用GMM得到的两个分类恰好是沉迷用户和非沉迷用户两类特征向量的概率分布。
使用GMM对Siamese Network学到的用户特征向量进行分类,GMM实际学习到了沉迷游戏的用户和非沉迷游戏用户的特征向量的概率分布;将待判定的用户的特征向量,带入两个概率分布中计算其似然度,取似然度大的作为待判定用户的分类标签。
步骤S130,利用学习训练后的所述孪生神经网络模型提取待判定用户的游戏数据的特征向量,利用学习训练后的所述高斯混合模型计算所述待判定用户的游戏数据的特征向量的似然度,并根据所述似然度确定待判定用户是否为沉迷游戏的用户。
使用训练出来的神经网络Siamese Network对游戏用户的游戏数据提取特征向量,将提取出来的特征放入训练出来的GMM中计算其似然度,通过计算出的似然度对游戏用户进行是否沉迷游戏的判定。
于本实施例中,所述利用学习训练后的所述高斯混合模型计算所述待判定用户的游戏数据的特征向量的似然度,并根据所述似然度确定待判定用户是否为沉迷游戏的用户的一种实现方式为:
将待判定用户的特征向量分别带入沉迷游戏用户的用户特征和未沉迷游戏用户的用户特征的特征向量的概率分布中计算似然度,取两个似然度大的作为判定是否为沉迷游戏的用户的待判定用户的分类标签。
对于待判定的游戏用户,首先利用Siamese Network对游戏用户的游戏统计数据计算其特征向量,然后利用GMM学习的沉迷和非沉迷两类样本的特征向量的概率分布,对于待测试的游戏用户,利用Siamese Network计算其特征向量来自各个概率分布的似然度,取似然度大的分类的作为测试游戏用户的判定结果。
由上可见,本实施例提供了一种基于Siamese Network和GMM的少标记游戏用户的游戏沉迷判定方法,将判定用户是否沉迷游戏转化为机器学习中的分类问题,并通过输入游戏用户近期的游戏统计数据来判断用户是否沉迷游戏。
如图5所示,具体包括如下步骤:
第一阶段基于深度神经网络Siamese Network对输入数据(如游戏时长,游戏投入金钱,游戏在线时间,用户年龄等数据)进行特征提取,并进行正负样本间的差异性学习,使得不同类别(是否沉迷游戏)的用户特征具有尽量大的距离。
第二阶段使用GMM(高斯混合模型)对第一阶段提取到的特征进行表示学习,利用GMM学习不同类别(是否沉迷游戏)间游戏用户特征向量的概率分布。
第三阶段使用第一阶段训练出来的神经网络对测试数据提取特征,将提取出来的特征放入第二阶段训练出来的GMM中判断其似然度,通过似然度对测试游戏用户进行是否沉迷游戏的判定。
本实施例将游戏沉迷的判定转化为一个机器学习中的分类问题。为克服人工标注大量训练样本带来的巨大成本,本专利使用Siamese Network的随机组合能力来提高训练样本数量,并利用Siamese Network得到游戏用户的特征向量,接着使用GMM对特征向量的概率分布进行刻画,并用刻画出的模型对测试用户进行游戏沉迷的判定。
以下具体说明本实施例中基于孪生神经网络和GMM的游戏防沉迷判定方法的实施过程:
假设模型只获得了很少的已标记的训练用户游戏数据集S,它有N个有游戏用户样本,每个游戏用户样本具有相同维度,并有一个对应的标签y∈{0,1}。
S={(x1,y1),(x2,y2),...,(xN,yN)};
再给出一个待分类的测试样例
Figure BDA0001777174030000091
分类任务的目标是正确的预测
Figure BDA0001777174030000092
的标签
Figure BDA0001777174030000093
表示样例
Figure BDA0001777174030000094
对应的用户是否沉迷游戏。
假设x1和x2是数据集中的两个游戏用户样本,并且x1和x2属于同一个类别(同为沉迷用户或同为非沉迷用户)。因为x1和x2属于同一个类别也意味着x2和x1属于同一个类别,这意味着如果我们颠倒二者输入,神经网络Siamese Network的输出应该是完全相同的。这被称为Siamese Network的对称性。对称性是非常重要的,因为它要求学习一个距离度量,x1到x2的距离应该等于x2到x1的距离。
本实施例采用了逐对训练的方法,这将会有平方级别对的游戏用户样本对来训练模型,这让模型很难过拟合。假设训练样本中,每类有C个游戏用户样本,则一共有2*C个游戏用户样本,总共可能的组合可以这样计算:Npairs=4*C2;相比传统方法仅有2*C个游戏用户训练样本,这是一个巨大的提升。通常机器学习系统的性能会随着训练样本数量的减少而急剧下降,而标注大量的训练样本需要大量的专家,花费巨大的代价。而本专利的这种方法能够有效扩大样本数量,提高游戏沉迷判定系统在仅有少量已标注游戏用户数据的的任务中的性能表现,减少数据标注中的投入。
为使训练更平滑,我们使用sigmoid函数来将两个输入样本的特征向量的绝对差的一维范数归一化到[0,1]范围内。
Figure BDA0001777174030000095
当两位游戏用户的数据x1和x2是相同类别的时候,使目标t=1,类别不相同的时候使t=0。本发明使用逻辑斯特回归来训练。这意味着损失函数应该是预测和目标之间的二分类交叉熵。损失函数中还有一个L2权重衰减项,以让网络可以学习更小的和更平滑的权重,从而提高泛化能力。
L(x1,x2,t)=t*log(d(x1,x2))+(1-t)*log(d(x1,x2))+λ||ω||2
其中d(x1,x2)表示经过了sigmoid函数归一化后的游戏用户特征向量绝对差的一维范数。λ表示惩罚因子,ω表示神经网络中的参数向量。
这个网络一共有38,951,745个参数,其中96%的参数属于全连接层。这个参数量很大,但是成对的训练意味着训练的数据集是很大的,所以过拟合问题不会出现。
在Siamese Network的基础上,我们使用GMM(高斯混合模型)来对游戏用户数据产生的特征向量进行分类。高斯混合模型实际上是学习的特征向量的概率分布。GMM是多个高斯分布函数的线性组合,理论上GMM可以拟合出任意类型的分布。GMM模型可以表示为:
Figure BDA0001777174030000101
其中Ν(x|μkk)称为混合模型中的第k个分量。且满足:
Figure BDA0001777174030000102
0≤πk≤1。可以看到πk相当于每个分量Ν(x|μkk)的权重。
接着使用EM算法估计GMM参数:
1、定义分量数目K,对每个分量k设置πk,μk和Σk的初始值,然后其对数似然函数。
2、E step:根据当前的πk,μk和Σk计算后验概率γ(znk):
Figure BDA0001777174030000103
3、M step:根据E step中计算的γ(znk)再计算新的πk,μk和Σk
Figure BDA0001777174030000104
Figure BDA0001777174030000105
Figure BDA0001777174030000106
其中:
Figure BDA0001777174030000107
4、计算其对数似然函数:
Figure BDA0001777174030000108
5、检查参数是否收敛或对数似然函数是否收敛,若不收敛,则返回第2步。附图4给出了GMM使用EM算法的迭代过程图。
对于训练集中的正负样本,先由训练好的Siamese Network计算出各个样本的特征向量。再使用两个GMM模型分别对正负样本进行建模。对于待判定的样本
Figure BDA0001777174030000109
先由SiameseNetwork计算出其特征向量,再放入两个GMM中计算其似然度,选择似然度高GMM的标签的作为
Figure BDA00017771740300001010
的分类标签。
如图6所示,本发明的实施例还提供一种基于孪生神经网络和GMM的游戏防沉迷判定系统100,所述基于孪生神经网络和GMM的游戏防沉迷判定系统100包括:孪生神经网络模型训练模块110,高斯混合模型训练模块120以及判定模块130。
于本实施例中,所述孪生神经网络模型训练模块110用于利用孪生神经网络模型对游戏用户的游戏数据进行特征提取,并对不同类别的游戏用户的特征进行差异性学习训练,使得沉迷游戏用户的用户特征和未沉迷游戏用户的用户特征具有区别距离。
基于深度神经网络Siamese Network对游戏用户的游戏数据进行特征提取,并对不同类别的游戏用户(是否沉迷游戏)的特征进行差异性学习,使得沉迷和未沉迷游戏用户的特征表示具有尽量大的距离。
使用Siamese Network对游戏数据进行特征表示。其特点在于使用深度神经网络通过游戏用户的游戏数据对游戏用户进行特征表示,能够方便的将游戏用户的特征向量投入到后续的机器学习方法中。
本发明所提出的基于孪生神经网络模型(Siamese Network)和高斯混合模型(GMM)的少量游戏用户样本游戏沉迷判定方法,结合使用Siamese Network和GMM两个模型,避免了对大量已标注数据的依赖,智能且准确的对游戏沉迷行为进行判定。
于本实施例中,所述游戏数据至少包括游戏时长,游戏投入金钱,游戏在线时间以及用户年龄。
使用Siamese Network将用户的游戏数据组合成对,将一对游戏用户数据的组合当作一个输入,以此极大提高了训练数据的样本量;并通过约束使得学习到的游戏用户的特征向量具有同一类别的特征向量距离近,不同类别的特征向量距离远的特点。
具体地,如图2所示,于本实施例中,所述孪生神经网络模型具有两个相同结网络结构的第一层神经网络和第二层神经网络;所述第一层神经网络和所述第二层神经网络分别输出游戏用户的特征向量,所述孪生神经网络模型的输出层输出所述第一层神经网络输出的游戏用户的特征向量与所述第二层神经网络输出的游戏用户的特征向量之间的绝对差值。
于本实施例中,所述利用孪生神经网络模型对游戏用户的游戏数据进行特征提取,并对不同类别的游戏用户的特征进行差异性学习训练中,每次选取两个游戏用户的特征向量,分别同时输入到所述第一层神经网络和所述第二层神经网络。
即在使用Siamese Network对用户数据进行特征向量的学习时,使用图2的神经网络结构。该神经网络结构由上下对称的两部分组成,在整个前向传播和反向训练中,上下两个神经网络始终具有相同的网络结构和网络参数。每次训练时同时放入两个游戏用户的数据,将神经网络的倒数第二层作为游戏用户的特征向量。对于两个游戏用户的特征向量,如果两个用户属于同一类(同为沉迷用户或同为非沉迷用户),最后一层的目标函数使得同一类的两个样本特征向量距离近;相反地,不同样本(非沉迷用户和沉迷用户)的特征向量距离远。
本实施例中的Siamese Network的两个游戏用户通过了完全相同共享参数的网络,然后使用绝对差分作为神经网络的输出。Siamese Network的通用网络结构图如附图2所示,它由上下两个共享参数而完全一模一样的神经网络构成,每次随机挑选两位游戏用户的数据作为Siamese Network的一对输入,通过若干层隐含层的变换后,倒数第二层表示两个输入游戏用户样本的特征向量,最后一层输出是两个特征向量的绝对差值。SiameseNetwork的训练目标函数是使得同一类的游戏用户样本的特征向量的距离近,而不同分类的特征向量的距离远。
在本实施例中,在Siamese Network的思路下使用卷积升级网络作特征提取。整个网络的结构如附图3所示:输入依次通过64通道的10×10卷积核,relu->max pool->128通道的7×7卷积核,relu->max pool->128通道的4×4卷积核,relu->max pool->256通道的4×4卷积核进行变换。本发明使用Siamese Network把输入降低到越来越小的3d张量上,最终它们经过一个4096神经元的全连接层。这个全连接层可以看作样本的特征向量的表示。网络输出是两个输入样本的特征向量的绝对差的一维范数。
随机组合游戏用户的游戏数据方法进行机器学习训练。其特征在于利用随机组合的方法,极大提高了训练样本量,缓解机器学习系统对大量已标注数据需求,提高了本机器学习系统在预测游戏用户是否沉迷时的性能表现。
于本实施例中,所述高斯混合模型训练模块120用于利用高斯混合模型对游戏用户的用户特征进行学习训练,学习沉迷游戏用户的用户特征和未沉迷游戏用户的用户特征的特征向量的概率分布。
使用GMM(高斯混合模型)对游戏用户的特征进行表示学习,利用GMM学习不同类别游戏用户的特征向量的概率分布。将深度神经网络Siamese Network中学习到的游戏用户的特征向量作为GMM输入的方法。其特征在于充分利用了深度学习极强的抽象表达能力,利用GMM的表示学习能力来表达了游戏用户的概率分布。
具体地,使用GMM(高斯混合模型)对Siamese Network训练得到的游戏用户特征进行分类。GMM原理如图4,GMM实际学习了特征向量的概率分布。结合Siamese Network学习到的特征向量,GMM能将这些特征向量分为两类。因为在Siamese Network进行训练的过程中,我们约束使得同一类特征向量的距离近,而不同分类的特征向量的距离远。因此使用GMM得到的两个分类恰好是沉迷用户和非沉迷用户两类特征向量的概率分布。
使用GMM对Siamese Network学到的用户特征向量进行分类,GMM实际学习到了沉迷游戏的用户和非沉迷游戏用户的特征向量的概率分布;将待判定的用户的特征向量,带入两个概率分布中计算其似然度,取似然度大的作为待判定用户的分类标签。
于本实施例中,所述判定模块130用于利用学习训练后的所述孪生神经网络模型提取待判定用户的游戏数据的特征向量,利用学习训练后的所述高斯混合模型计算所述待判定用户的游戏数据的特征向量的似然度,并根据所述似然度确定待判定用户是否为沉迷游戏的用户。
使用训练出来的神经网络Siamese Network对游戏用户的游戏数据提取特征向量,将提取出来的特征放入训练出来的GMM中计算其似然度,通过计算出的似然度对游戏用户进行是否沉迷游戏的判定。
于本实施例中,所述判定模块130确定待判定用户是否为沉迷游戏的用户的一种实现方式为:将待判定用户的特征向量分别带入沉迷游戏用户的用户特征和未沉迷游戏用户的用户特征的特征向量的概率分布中计算似然度,取两个似然度大的作为判定是否为沉迷游戏的用户的待判定用户的分类标签。
对于待判定的游戏用户,首先利用Siamese Network对游戏用户的游戏统计数据计算其特征向量,然后利用GMM学习的沉迷和非沉迷两类样本的特征向量的概率分布,对于待测试的游戏用户,利用Siamese Network计算其特征向量来自各个概率分布的似然度,取似然度大的分类的作为测试游戏用户的判定结果。
由上可见,本实施例提供了一种基于Siamese Network和GMM的少标记游戏用户的游戏沉迷判定方法,将判定用户是否沉迷游戏转化为机器学习中的分类问题,并通过输入游戏用户近期的游戏统计数据来判断用户是否沉迷游戏。
综上所述,本发明提供的基于Siamese Network和GMM的少样本游戏用户沉迷判定方法,通过机器学习方法,综合考虑多个因素,克服现有判定方法死板、不准确的缺陷;本发明使用一对单游戏用户随机组合生成的新样本对作为训练对象,极大增加了训练样本量,减小游戏沉迷判定系统对大量标注用户数据的依赖;本发明提高了在少量游戏用户数据下游戏沉迷判定的性能表现;本发明提出了一种游戏用户的特征向量的表示方式;本发明具有极强的普遍适用性(适用于各类游戏)。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中包括通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (10)

1.一种基于孪生神经网络和GMM的游戏防沉迷判定方法,其特征在于,所述基于孪生神经网络和GMM的游戏防沉迷判定方法包括:
利用孪生神经网络模型对游戏用户的游戏数据进行特征提取,并对不同类别的游戏用户的特征进行差异性学习训练,使得沉迷游戏用户的用户特征和未沉迷游戏用户的用户特征具有区别距离;
利用高斯混合模型对游戏用户的用户特征进行学习训练,学习沉迷游戏用户的用户特征和未沉迷游戏用户的用户特征的特征向量的概率分布;
利用学习训练后的所述孪生神经网络模型提取待判定用户的游戏数据的特征向量,利用学习训练后的所述高斯混合模型计算所述待判定用户的游戏数据的特征向量的似然度,并根据所述似然度确定待判定用户是否为沉迷游戏的用户。
2.根据权利要求1所述的基于孪生神经网络和GMM的游戏防沉迷判定方法,其特征在于,所述孪生神经网络模型具有两个相同网络结构的第一层神经网络和第二层神经网络;所述第一层神经网络和所述第二层神经网络分别输出游戏用户的特征向量,所述孪生神经网络模型的输出层输出所述第一层神经网络输出的游戏用户的特征向量与所述第二层神经网络输出的游戏用户的特征向量之间的绝对差值。
3.根据权利要求2所述的基于孪生神经网络和GMM的游戏防沉迷判定方法,其特征在于,所述利用孪生神经网络模型对游戏用户的游戏数据进行特征提取,并对不同类别的游戏用户的特征进行差异性学习训练中,每次选取两个游戏用户的特征向量,分别同时输入到所述第一层神经网络和所述第二层神经网络。
4.根据权利要求1所述的基于孪生神经网络和GMM的游戏防沉迷判定方法,其特征在于,所述利用学习训练后的所述高斯混合模型计算所述待判定用户的游戏数据的特征向量的似然度,并根据所述似然度确定待判定用户是否为沉迷游戏的用户的一种实现方式为:
将待判定用户的特征向量分别带入沉迷游戏用户的用户特征和未沉迷游戏用户的用户特征的特征向量的概率分布中计算似然度,取两个中 似然度大的作为判定是否为沉迷游戏的用户的待判定用户的分类标签。
5.根据权利要求1所述的基于孪生神经网络和GMM的游戏防沉迷判定方法,其特征在于,所述游戏数据至少包括游戏时长,游戏投入金钱,游戏在线时间以及用户年龄。
6.一种基于孪生神经网络和GMM的游戏防沉迷判定系统,其特征在于,所述基于孪生神经网络和GMM的游戏防沉迷判定系统包括:
孪生神经网络模型训练模块,用于利用孪生神经网络模型对游戏用户的游戏数据进行特征提取,并对不同类别的游戏用户的特征进行差异性学习训练,使得沉迷游戏用户的用户特征和未沉迷游戏用户的用户特征具有区别距离;
高斯混合模型训练模块,用于利用高斯混合模型对游戏用户的用户特征进行学习训练,学习沉迷游戏用户的用户特征和未沉迷游戏用户的用户特征的特征向量的概率分布;
判定模块,用于利用学习训练后的所述孪生神经网络模型提取待判定用户的游戏数据的特征向量,利用学习训练后的所述高斯混合模型计算所述待判定用户的游戏数据的特征向量的似然度,并根据所述似然度确定待判定用户是否为沉迷游戏的用户。
7.根据权利要求6所述的基于孪生神经网络和GMM的游戏防沉迷判定系统,其特征在于,所述孪生神经网络模型具有两个相同网络结构的第一层神经网络和第二层神经网络;所述第一层神经网络和所述第二层神经网络分别输出游戏用户的特征向量,所述孪生神经网络模型的输出层输出所述第一层神经网络输出的游戏用户的特征向量与所述第二层神经网络输出的游戏用户的特征向量之间的绝对差值。
8.根据权利要求7所述的基于孪生神经网络和GMM的游戏防沉迷判定系统,其特征在于,所述利用孪生神经网络模型对游戏用户的游戏数据进行特征提取,并对不同类别的游戏用户的特征进行差异性学习训练中,每次选取两个游戏用户的特征向量,分别同时输入到所述第一层神经网络和所述第二层神经网络。
9.根据权利要求6所述的基于孪生神经网络和GMM的游戏防沉迷判定系统,其特征在于,所述判定模块确定待判定用户是否为沉迷游戏的用户的一种实现方式为:
将待判定用户的特征向量分别带入沉迷游戏用户的用户特征和未沉迷游戏用户的用户特征的特征向量的概率分布中计算似然度,取两个中 似然度大的作为判定是否为沉迷游戏的用户的待判定用户的分类标签。
10.根据权利要求6所述的基于孪生神经网络和GMM的游戏防沉迷判定系统,其特征在于:所述游戏数据至少包括游戏时长,游戏投入金钱,游戏在线时间以及用户年龄。
CN201810974944.7A 2018-08-24 2018-08-24 基于孪生神经网络和gmm的游戏防沉迷判定系统及方法 Active CN109214444B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810974944.7A CN109214444B (zh) 2018-08-24 2018-08-24 基于孪生神经网络和gmm的游戏防沉迷判定系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810974944.7A CN109214444B (zh) 2018-08-24 2018-08-24 基于孪生神经网络和gmm的游戏防沉迷判定系统及方法

Publications (2)

Publication Number Publication Date
CN109214444A CN109214444A (zh) 2019-01-15
CN109214444B true CN109214444B (zh) 2022-01-07

Family

ID=64989133

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810974944.7A Active CN109214444B (zh) 2018-08-24 2018-08-24 基于孪生神经网络和gmm的游戏防沉迷判定系统及方法

Country Status (1)

Country Link
CN (1) CN109214444B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563746A (zh) * 2020-04-30 2020-08-21 中国工商银行股份有限公司 用户身份认证的方法、装置、电子设备和介质
CN112044082B (zh) * 2020-08-28 2021-11-30 腾讯科技(深圳)有限公司 一种信息检测方法、装置及计算机可读存储介质
CN113159782B (zh) * 2021-03-26 2022-04-15 支付宝(杭州)信息技术有限公司 基于联邦学习的未成年人防沉迷处理方法、装置及设备
CN116503042B (zh) * 2023-03-15 2023-12-19 上海天方夜谭网络科技有限公司 适用于检维修人员培训数据处理方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7069197B1 (en) * 2001-10-25 2006-06-27 Ncr Corp. Factor analysis/retail data mining segmentation in a data mining system
CN102034472A (zh) * 2009-09-28 2011-04-27 戴红霞 一种基于嵌入时延神经网络的高斯混合模型的说话人识别方法
CN102693724A (zh) * 2011-03-22 2012-09-26 张燕 一种基于神经网络的高斯混合模型的噪声分类方法
CN106056143A (zh) * 2016-05-26 2016-10-26 广东欧珀移动通信有限公司 终端使用数据处理方法和防沉迷方法及装置、系统和终端
CN107220157A (zh) * 2017-05-25 2017-09-29 合肥泽诺信息科技有限公司 一种网络游戏防沉迷管理系统
CN107291739A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 网络用户健康状况的评价方法、系统及设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9031293B2 (en) * 2012-10-19 2015-05-12 Sony Computer Entertainment Inc. Multi-modal sensor based emotion recognition and emotional interface
US9454958B2 (en) * 2013-03-07 2016-09-27 Microsoft Technology Licensing, Llc Exploiting heterogeneous data in deep neural network-based speech recognition systems
US9484022B2 (en) * 2014-05-23 2016-11-01 Google Inc. Training multiple neural networks with different accuracy

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7069197B1 (en) * 2001-10-25 2006-06-27 Ncr Corp. Factor analysis/retail data mining segmentation in a data mining system
CN102034472A (zh) * 2009-09-28 2011-04-27 戴红霞 一种基于嵌入时延神经网络的高斯混合模型的说话人识别方法
CN102693724A (zh) * 2011-03-22 2012-09-26 张燕 一种基于神经网络的高斯混合模型的噪声分类方法
CN107291739A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 网络用户健康状况的评价方法、系统及设备
CN106056143A (zh) * 2016-05-26 2016-10-26 广东欧珀移动通信有限公司 终端使用数据处理方法和防沉迷方法及装置、系统和终端
CN107220157A (zh) * 2017-05-25 2017-09-29 合肥泽诺信息科技有限公司 一种网络游戏防沉迷管理系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Distributed Coverage Control of Mobile Sensor Networks in Unknown Environment Using Game Theory: Algorithms and Experiments;Salar Rahili等;《IEEE Transactions on Mobile Computing》;20180601;第1303 - 1313页 *
LEVERAGING NATIVE LANGUAGE SPEECH FOR ACCENT IDENTIFICATION USING DEEP SIAMESE NETWORKS;Siddhant Aditya等;《2017 IEEE AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING WORKSHOP (ASRU)》;20171225;第621-628页 *
基于分布式聚类分析的上网时长估算方法研究;陈凯;《中国优秀硕士学位论文全文数据库信息科技辑》;20180615;I138-1005 *
网游客户分群与特征挖掘算法研究与应用;赵楠明;《https://kns.cnki.net/KCMS/detail/detail.aspx?dbname=CMFD2012&filename=1012394563.nh》;20120330;第1-56页 *

Also Published As

Publication number Publication date
CN109214444A (zh) 2019-01-15

Similar Documents

Publication Publication Date Title
CN109214444B (zh) 基于孪生神经网络和gmm的游戏防沉迷判定系统及方法
WO2021155706A1 (zh) 利用不平衡正负样本对业务预测模型训练的方法及装置
CN109492026B (zh) 一种基于改进的主动学习技术的电信欺诈分类检测方法
CN107766929B (zh) 模型分析方法及装置
CN105975573B (zh) 一种基于knn的文本分类方法
CN109241255A (zh) 一种基于深度学习的意图识别方法
CN109101938B (zh) 一种基于卷积神经网络的多标签年龄估计方法
CN108197643B (zh) 一种基于无监督聚类和度量学习的迁移学习方法
CN107515877A (zh) 敏感主题词集的生成方法和装置
CN112685504B (zh) 一种面向生产过程的分布式迁移图学习方法
CN109191276B (zh) 一种基于强化学习的p2p网络借贷机构风险评估方法
CN112784031B (zh) 一种基于小样本学习的客服对话文本的分类方法和系统
CN109800309A (zh) 课堂话语类型分类方法及装置
CN114998602A (zh) 基于低置信度样本对比损失的域适应学习方法及系统
CN109472453A (zh) 基于全局最优模糊核聚类模型的电力用户信用评价方法
CN113505120B (zh) 一种大规模人脸数据集的双阶段噪声清洗方法
CN113674862A (zh) 一种基于机器学习的急性肾功能损伤发病预测方法
CN104537383A (zh) 一种基于粒子群的海量组织机构数据分类方法及系统
CN108846476A (zh) 一种基于卷积神经网络的智能终端安全等级分类方法
CN111783688B (zh) 一种基于卷积神经网络的遥感图像场景分类方法
CN110827809A (zh) 一种基于条件生成式对抗网络的语种识别分类方法
CN112766134A (zh) 一种强化类间区分的表情识别方法
CN111178897B (zh) 在不平衡数据上快速特征学习的代价敏感的动态聚类方法
CN108647714A (zh) 负面标签权重的获取方法、终端设备及介质
CN114462466A (zh) 一种面向深度学习的数据去偏方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant