CN110302540B

CN110302540B - 基于ga-svm的游戏防沉迷判定系统及方法

Info

Publication number: CN110302540B
Application number: CN201810995717.2A
Authority: CN
Inventors: 曾敏; 骆源
Original assignee: Xiaovo Technology Co ltd; Shanghai Jiaotong University
Current assignee: Xiaovo Technology Co ltd; Shanghai Jiaotong University
Priority date: 2018-08-29
Filing date: 2018-08-29
Publication date: 2022-05-03
Anticipated expiration: 2038-08-29
Also published as: CN110302540A

Abstract

本发明提供一种基于GA‑SVM的游戏防沉迷判定系统及方法，所述基于GA‑SVM的游戏防沉迷判定方法包括：检测已采集到的游戏数据中的异常值，并删除所述异常值；对删除异常值后的游戏数据进行缺失数据填补，形成完整用户游戏数据；将所述完整用户游戏数据输入预先构建的GA‑SVM分类模型，对用户游戏沉迷与否进行判定。本发明可以有效对游戏数据进行清洗，从而得到更加完整的游戏数据，有利于游戏数据信息提取，提高了游戏数据的利用率，本发明采用GA‑SVM分类模型进行用户沉迷游戏判定，GA‑SVM分类模型在实际分类中展现了较传统SVM方法更好的预测效果。

Description

基于GA-SVM的游戏防沉迷判定系统及方法

技术领域

本发明涉及机器学习技术领域，特别是涉及一种基于GA-SVM的游戏防沉迷判定系统及方法。

背景技术

现在的防沉迷系统定义健康游戏时间标准按照定义使用者累计3小时以内的游戏时间为“健康”游戏时间。定义使用者在累计游戏3小时之后，再持续下去的2小时游戏时间为“疲劳”游戏时间。定义使用者累计游戏时间超过5小时为“不健康”游戏时间。

如今的防沉迷系统由于只考虑用户的登录时长，充值金额，从而对用户沉迷与否进行判定，其判定过程过于简单及不充分，主要没有充分考虑到以下几个因素：用户的年龄：未成年人和成年人游戏时长不能以一个标准进行考虑；用户的职业，如游戏职业玩家在线时长相比正常玩家长许多；用户的收入，如在校学生和有稳定收入的成年人的游戏充值金额不能一个标准考虑等。

发明内容

为了解决上述的以及其他潜在的技术问题，本发明的实施例提供了一种基于GA-SVM的游戏防沉迷判定方法，所述基于GA-SVM的游戏防沉迷判定方法包括：检测已采集到的游戏数据中的异常值，并删除所述异常值；对删除异常值后的游戏数据进行缺失数据填补，形成完整用户游戏数据；将所述完整用户游戏数据输入预先构建的GA-SVM分类模型，对用户游戏沉迷与否进行判定。

于本发明的一实施例中，所述GA-SVM分类模型的构建方法包括：随机产生一组应用于游戏防沉迷判定中的SVM模型参数，并通过遗传算法对SVM模型的最优参数进行搜索，确定应用于游防沉迷系统中的游戏数据建模方法GA-SVM的模型参数；根据已经确定的SVM模型参数对所述完整用户游戏数据进行建模，找到一个定义在特征空间上的间隔最大的线性分类器，利用间隔最大化求最优分离超平面，使得沉迷游戏的用户和未沉迷游戏的用户在特征空间中尽可能分离且间隔最大化，从而建立对用户游戏沉迷进行分类的GA-SVM分类模型。

于本发明的一实施例中，所述异常值包括异常充值金额，异常登陆时间，异常登陆时长。

于本发明的一实施例中，所述缺失数据包括对异常值检测后删除所造成的缺失值，游戏用户的职业，年龄以及性别。

于本发明的一实施例中，采用马哈拉诺比斯方法检测所述异常值；采用马尔科夫蒙特卡洛方法对删除异常值后的游戏数据进行缺失数据填补。

本发明的实施例还提供一种基于GA-SVM的游戏防沉迷判定系统，其特征在于，所述基于GA-SVM的游戏防沉迷判定系统包括：异常值处理模块，用于检测已采集到的游戏数据中的异常值，并删除所述异常值；缺失填补模块，用于对删除异常值后的游戏数据进行缺失数据填补，形成完整用户游戏数据；判定模块，用于将所述完整用户游戏数据输入预先构建的GA-SVM分类模型，对用户游戏沉迷与否进行判定。

于本发明的一实施例中，所述基于GA-SVM的游戏防沉迷判定系统还包括GA-SVM分类模型的构建模块，所述GA-SVM分类模型的构建模块包括：建模参数确定单元，用于随机产生一组应用于游戏防沉迷判定中的SVM模型参数，并通过遗传算法对SVM模型的最优参数进行搜索，确定应用于游防沉迷系统中的游戏数据建模方法GA-SVM的模型参数；模型构建单元，用于根据已经确定的SVM模型参数对所述完整用户游戏数据进行建模，找到一个定义在特征空间上的间隔最大的线性分类器，利用间隔最大化求最优分离超平面，使得沉迷游戏的用户和未沉迷游戏的用户在特征空间中尽可能分离且间隔最大化，从而建立对用户游戏沉迷进行分类的GA-SVM分类模型。

于本发明的一实施例中，所述异常值处理模块采用马哈拉诺比斯方法检测所述异常值；所述缺失填补模块采用马尔科夫蒙特卡洛方法对删除异常值后的游戏数据进行缺失数据填补。

如上所述，本发明的基于GA-SVM的游戏防沉迷判定系统及方法具有以下有益效果：

1、本发明针对游戏数据质量不高的情况，尤其是对于用户的性别，年龄，职业这些敏感信息，存在部分缺失，登录时间，充值金额等可能因为设备故障存在异常值，采取游戏数据处理技术，可以有效对游戏数据进行清洗，从而得到更加完整的游戏数据，有利于游戏数据信息提取，提高了游戏数据的利用率。

2、本发明采用GA-SVM分类模型进行用户沉迷游戏判定，GA-SVM分类模型在实际分类中展现了较传统SVM方法更好的预测效果，但由于对缺失游戏数据敏感，经过前期游戏数据预处理之后，GA-SVM可以不受影响，从而达到较好的预测效果，GA-SVM分类模型参数采用遗传算法进行搜索，可以提高SVM分类模型的分类效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1显示为本发明的基于GA-SVM的游戏防沉迷判定方法的整体流程示意图。

图2显示为本发明的基于GA-SVM的游戏防沉迷判定方法的示意流程图示意图。

图3显示为本发明的基于GA-SVM的游戏防沉迷判定方法的工作过程示意图。

图4显示为本发明的基于GA-SVM的游戏防沉迷判定系统的原理框图。

图5显示为本发明的基于GA-SVM的游戏防沉迷判定系统中GA-SVM分类模型的构建模块的原理框图。

元件标号说明

100 基于GA-SVM的游戏防沉迷判定系统

110 异常值处理模块

120 缺失填补模块

130 判定模块

140 GA-SVM分类模型的构建模块

S110～S130 步骤

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1至图5。须知，本说明书所附图式所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。同时，本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

本发明属于游戏数据处理，人工智能领域，具体是一种游戏数据前期预处理优化以及后期应用GA-SVM模型建模对用户游戏沉迷判定方法，该方法实现了前期在游戏数据预处理时期，对游戏数据中的异常值，删失值进行有效处理，从而为后期游戏数据建模提供更加完整可靠的游戏数据，后期建模采用GA-SVM模型对游戏数据进行建模，从而达到对用户游戏沉迷与否进行分类的效果。

本实施例为一种基于GA-SVM的游戏防沉迷判定系统和方法，是一种应用在游戏防沉迷系统中的前期游戏数据预处理技术及后期用户游戏沉迷判定模型GA-SVM。建模分为两部分，前期游戏数据预处理技术以及后期引入GA-SVM模型对用户的游戏沉迷进行分类判定。前期游戏数据预处理部分，包括对游戏数据异常值的检测和缺失游戏数据填补。游戏数据中的异常值包括系统检测到的异常的充值金额，登录时间，登陆时长等，具体使用马哈拉诺比斯方法检测异常值，对异常值进行删除。再对异常值处理后的游戏数据进行游戏数据填补，游戏数据中的缺失值包括前期异常值检测删除所造成的缺失值，以及游戏用户的职业，年龄，性别等敏感不易得到从而造成缺失的游戏数据，考虑通过马尔科夫蒙特卡洛方法对游戏中的缺失游戏数据进行填补。前期游戏数据预处理过程完成后得到的完整游戏数据用于后期用户游戏沉迷判定建模过程中。后期游戏数据建模引入GA-SVM模型对用户游戏沉迷进行判定。首先随机产生一组用于游戏防沉迷判定的SVM模型参数，通过遗传算法对SVM模型的最优参数进行搜索，确定防沉迷SVM模型的最优参数，继而对游戏数据进行建模，从而建立最终的用户游戏沉迷的GA-SVM分类模型。

本实施例的目的是为游戏防沉迷系统的游戏数据建模过程提供了一个改进版的SVM建模方案，GA-SVM，创新点主要在于前期游戏数据预处理优化技术以及后期引入GA-SVM模型对游戏用户的游戏沉迷进行判定的方法。游戏数据预处理部分不只是异常值检测，也对缺失的游戏数据进行了有效填补，有利于高效利用游戏数据，提取游戏数据更多用户信息。考虑引用马哈拉诺比斯方法(Mahalanobis Method)，一种基于距离分布技术的方法，对异常值进行检测并删除。对于异常值检测完成后的游戏数据中的缺失值，我们考虑引用马尔科夫蒙特卡洛填补方法对缺失游戏数据进行填补。填补过后的完整游戏数据进行GA-SVM建模，SVM模型的参数由遗传算法搜索最优参数得到，以达到更优的用户游戏沉迷分类效果。

以下将详细阐述本实施例的基于GA-SVM的游戏防沉迷判定系统及方法的原理及实施方式，使本领域技术人员不需要创造性劳动即可理解本实施例的基于GA-SVM的游戏防沉迷判定系统及方法。

如图1所示，本发明的实施例提供了提供了一种基于GA-SVM的游戏防沉迷判定方法，所述基于GA-SVM的游戏防沉迷判定方法包括：

步骤S110，检测已采集到的游戏数据中的异常值，并删除所述异常值；

步骤S120，对删除异常值后的游戏数据进行缺失数据填补，形成完整用户游戏数据；

步骤S130，将所述完整用户游戏数据输入预先构建的GA-SVM分类模型，对用户游戏沉迷与否进行判定。

以下对本实施例的步骤S110至步骤S130进行详细说明。

将基于GA-SVM的游戏防沉迷判定方法应用于游戏防沉迷系统，需要考虑如下几个方面：

第一，异常值游戏数据对用户游戏沉迷模型准确性有很大影响；

第二，对于用户游戏数据中含有缺失游戏数据的用户进行删除会减少游戏数据的信息；

第三，游戏防沉迷系统中分类模型选择。

于本实施例中，所述异常值包括但不限于异常充值金额，异常登陆时间，异常登陆时长。

于本实施例中，采用马哈拉诺比斯方法检测所述异常值；

步骤S120，对删除异常值后的游戏数据进行缺失数据填补，形成完整用户游戏数据。

于本实施例中，所述缺失数据包括但不限于对异常值检测后删除所造成的缺失值，游戏用户的职业，年龄以及性别。

于本实施例中，采用马尔科夫蒙特卡洛方法对删除异常值后的游戏数据进行缺失数据填补。

即于本实施例中，对于一份含有异常值，缺失值的游戏数据，如图2所示，首先使用马哈拉诺比斯方法(Mahalanobis Method)检测已采集到的游戏数据中的异常值，异常值包括系统检测到的异常的充值金额，登陆时间，登陆时长等，对这些游戏数据中的异常值进行删除。再使用马尔科夫蒙特卡洛方法对初步处理(异常值删除)过后的游戏数据进行缺失值填补，缺失游戏数据包括前期对异常值检测后删除所造成的缺失值，以及游戏用户的职业，年龄，性别等敏感不易得到从而造成缺失的游戏数据，对这些缺失游戏数据进行游戏数据填补得到不含缺失值不含异常值的完整游戏数据。

针对游戏数据质量不高的情况，尤其是对于用户的性别，年龄，职业这些敏感信息，存在部分缺失，登录时间，充值金额等可能因为设备故障存在异常值，采取游戏数据处理技术，可以有效对游戏数据进行清洗，从而得到更加完整的游戏数据，有利于游戏数据信息提取，提高了游戏数据的利用率。

具体地，于本实施例中，所述GA-SVM分类模型的构建方法包括：

随机产生一组应用于游戏防沉迷判定中的SVM模型参数，并通过遗传算法对SVM模型的最优参数进行搜索，确定应用于游防沉迷系统中的游戏数据建模方法GA-SVM的模型参数。

然后根据已经确定的SVM模型参数对所述完整用户游戏数据进行建模，找到一个定义在特征空间上的间隔最大的线性分类器，利用间隔最大化求最优分离超平面，使得沉迷游戏的用户和未沉迷游戏的用户在特征空间中尽可能分离且间隔最大化，从而建立对用户游戏沉迷进行分类的GA-SVM分类模型。

即对于前期处理后的完整游戏数据，引入GA-SVM分类模型对用户游戏沉迷与否进行判定。首先随机产生一组应用于游戏防沉迷判定中的SVM模型参数，通过遗传算法对SVM模型的最优参数进行搜索，确定应用于游防沉迷系统中的游戏数据建模方法GA-SVM的模型参数。再根据已经确定的SVM模型参数对游戏数据进行建模，找到一个定义在特征空间上的间隔最大的线性分类器，利用间隔最大化求最优分离超平面，使得沉迷游戏的用户和未沉迷游戏的用户在特征空间中尽可能分离且间隔最大化，从而建立最终的用户游戏沉迷的GA-SVM分类模型。

现实游戏数据一般都存在异常值和缺失值，当原始游戏数据存在缺失值时，一般采用删除的方式。进而，在原始游戏数据存在异常值时，一般只检测极端值，进行删除极端值的方法。当原始游戏数据质量不是非常好，存在较多缺失值、异常值时，又或是在缺失游戏数据占原始游戏数据较大比重时，我们不应该忽略前期的游戏数据预处理。前期预处理完成后，对于用户游戏沉迷分类问题，我们一般采用决策树，聚类算法，SVM(支持向量机)，逻辑回归，神经网络等，在本专利中我们提出采用遗传算法-支持向量机(GA-SVM：geneticalgorithm and support vector machine)来建立用户游戏沉迷分类模型。

在以往的研究实践中，SVM已经被证明是一个具有良好分类效果的方法。SVM的核心思想就是找到不同类别之间的分界面，使得两类样本尽量落在面的两边，并且样本离分界面尽量远。最早的SVM是平面的，局限很大。但是利用核函数(kernel function)，我们可以把平面投射(mapping)成曲面，进而大大提高SVM的适用范围。相对来说，SVM尽量保持与样本间距离的性质导致它抗攻击的能力更强。但是，SVM的分类正确性严重依赖于参数(C，σ)的正确选择，C是惩罚系数，指对误差的容忍能力，C越高，越不能容忍误差的出现，容易过拟合。σ是选择RBF函数作为核函数后，该函数自带的参数。隐含地决定了游戏数据映射到新的特征空间后的分布，σ越大，支持向量越少，σ值越小，支持向量越多。支持向量的个数影响训练与预测的速度。综上，GA-SVM对传统的SVM进行了改进，通过遗传算法自动搜索参数，提高之后的GA-SVM同样被大量使用，在实际分类中展现了较传统SVM方法更高的正确率。

GA-SVM在实际分类中展现了较传统SVM方法更好的预测效果，但由于对缺失游戏数据敏感，经过前期游戏数据预处理之后，GA-SVM可以不受影响，从而达到较好的预测效果。GA-SVM模型参数采用遗传算法进行搜索，可以提高SVM模型的分类效果。

下面对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

本实施例提供了一种游戏数据预处理优化以及GA-SVM在游戏防沉迷系统中的应用方法，包括如下任一个或任多个步骤：

假设游戏数据集为S，由N个用户游戏数据组成S＝{(x₁,y₁),(x₂,y₂),…(x_n,y_n)}，i∈{1,2,…N}，其中x_i为第i个用户d个特征组成的d维向量，每个维度为一个特征，特征包括如登录时间，充值金额，职业，年龄等。y_i为第i个用户的标签(是否沉迷)，y_i∈{0,1}，1代表i个用户沉迷，0代表i个用户不沉迷。

游戏数据预处理步骤：

1)采用马哈拉诺比斯方法(Mahalanobis)方法检测处理异常值：异常值检测仅检测d个特征组成的游戏数据x。μ是x的均值向量，Σ是d×d的协方差矩阵，概率分布可以被定义为如下公式：

其中|Σ|定义为协方差矩阵的行列式值，我们注意到指数部分是单个用户的游戏数据

距离μ(游戏数据各个特征的均值构成的均值向量)的马氏距离，这个值用于计算异常值得分(outlier score)，对于异常值得分高的游戏数据判定为异常值，进行删除。异常值得分并且可以由如下公式直接计算：

马氏距离的计算需要协方差矩阵的逆，如果协方差矩阵没有逆，可以采用归一化矩阵I_d×d代替协方差矩阵。Mahalanobis方法在游戏数据维度增加时效果稳健，因为它使用协方差矩阵来以统计上有效的方式总结高维偏差。Mahalanobis方法简单但很容易忽视Mahalanobis方法解释了属性间依赖关系的事实，在高维游戏数据集中变得尤为重要。这个简单的方法相对于更复杂的基于距离的方法具有几个优点：

(1)Mahalanobis方法是无参数的，在无监督的问题中重要如异常值检测。

(2)协方差矩阵的使用确保了属性间的依赖关系在异常值检测过程中被计入，Mahalanobis方法可视为PCA的弱化版本。

(3)Mahalanobis方法在现实计算中有计算时间的优势。

2)游戏数据缺失处理：

I步：以计算得到的均数向量μ和协方差矩阵，开始，I步独立模拟每一次观测值的缺失值。换言之，如果定义用户游戏数据中含有缺失值的用户游戏数据为x_mis，即游戏用户x_i的d个特征中含有缺失游戏数据，则x_i∈x_mis。同理，不含有缺失值的观测为x_obs，I步从条件分布P(x_mis|x_obs,θ)中为缺失值抽取填补值，其中θ为模型参数。

P步：在每一次循环运算中，用上一次填补步中得到的μ和Σ作为后验总体的均数向量，协方差矩阵，对参数θ进行模拟。

循环进行这两步过程，产生一个足够长的马尔科夫链：

当该链会聚在一个稳定的分布P(x_mis,θ|x_obs,)时，就可以近似独立地从该分布中为游戏数据的缺失值抽取填补值，从而构造出完整的用户游戏数据集以便后续游戏数据沉迷分类建模。

3)游戏数据GA-SVM建模步骤：

遗传算法(GA)：遗传算法是一种优化算法，它们运算效率较高，利用群体的方式组织搜索，特别适合于大规模游戏数据的并行处理。遗传算法容易找到全局最优解，采取优胜劣汰的自然选择和简单的遗传操作，使其计算不受搜索空间等限制性条件约束，也不需要其他的辅助信息，具有良好的适应性，自学习等特征，并且简单易操作。

此处染色体(个体)是指，待寻优的参数组合。在优化过程中，GA随机在解决方案空间中产生多个起点同时开始搜索。适应函数用于确定搜索方向。遗传算法的基本步骤如下：

(1)对参数编码，获得染色体个体，即参数组合。

(2)根据适应度函数计算群体中每个个体的适应值，即每个参数组合的适应值。

(3)选择，交叉和变异操作后获得新的个体。

(4)重复步骤(2)和步骤(3)，直到满足终止条件。

已知SVM模型容易受惩罚因子和高斯核函数尺度参数影响，我们采用遗传算法对游戏数据分类模型SVM的最优参数(C,σ)进行搜索，C是惩罚因子，σ是高斯核函数尺度参数。

支持向量机(SVM)：SVM根据结构风险最小化的原则构造最优分离超平面，以尽量减少未知样本的分类误差，以及增加在小样本下的泛化性能。考虑游戏数据集S＝{(x₁,y₁),(x₂,y₂),…(x_n,y_n)}，其中x_i∈Rⁿ是输入向量，在本发明中指的是游戏数据d个特征，包括登录时间，下线时间，充值金额，登录时长，职业，年龄等构成的d维向量x，y_i∈R是相应的输出值，为第i个用户的标签(是否沉迷)，y_i∈{0,1}，1代表i个用户沉迷，0代表i个用户不沉迷。

SVM回归函数表示形式如下公式：

其中

是来自输入空间x的非线性映射函数，表示高维度特征空间。ω是权重，b是误差项，ω和b是通过最小化正则化后的风险函数来估计的，公式如下：

其中^1/2||ω||²是正则化项，C是惩罚系数，L_ε(y_i,f(x_i))是损失函数，SVM中的核函数K(x_i,x_j)的值等于两个向量x_i和x_j的内积，如下公式：

其中i,j＝1,2,…m。

在SVM中，常用核函数为：

①sigmoid核：

β＞0,θ＜0；

②多项式核：

d≥1为多项式次数；

③高斯核(RBF核)：

σ＞0为高斯核的带宽。

高斯核和其他两种核函数相比，需要确定更少的自由参数，因此参数优化变得更容易。高斯核建立的SVM相比其他两种核函数来说，有更好的分类效果，因此，在游戏沉迷建模时我们在SVM中采用高斯核函数，待优化的参数为(C,σ)，C是惩罚因子，σ是高斯核函数尺度参数。

遗传算法-支持向量机(GA-SVM)：

已知样本集为S＝{(x₁,y₁),(x₂,y₂),…(x_n,y_n)}，其中x_i∈Rⁿ是输入向量，在本发明中指的是游戏数据d个特征，包括登录时间，下线时间，充值金额，登录时长，职业，年龄等构成的d维向量x，y_i∈R是相应的输出值，为第i个用户的标签(是否沉迷)，y_i∈{0,1}，1代表i个用户沉迷，0代表i个用户不沉迷。回归函数表示如公式(1)，其中

是来自输入空间x的非线性映射函数，表示高维度特征空间。ω是权重，b是误差项，ω和b是通过最小化正则化后的风险函数来估计的，假设训练集为s_train，是参与回归参数构造的游戏数据集，即参与模型训练的用户游戏数据，记：

其中：(x,y)∈S_train。

如图3所示，首先设置参数，用户游戏数据集S大小为F+P，其中前F作为训练游戏数据集s_train，后P作为检验游戏数据集s_test。群体规模为P_size，群体进化G_max代。群体中第i个个体表示为g_i＝(g_i1,g_i2)＝(lgC,lgσ)，其中g_i1的取值范围为(a₁,b₁)，g_i2的取值范围为(a₂,b₂)，预定交叉概率为P₁，变异概率为P₂，允许的相对误差为θ。GA-SVM算法从第0代开始，按照P_size构造初始群体，首先读入游戏数据集S，训练集为s_train＝{S₁,S₂,…S_F}，采用解析的方法对核相关矩阵A求逆，从而求出ω和b，其中ω和b的计算方式如下：

从而得到SVM模型的参数，对后P个样本进行检验，如果预测值和真实值误差小于θ，则认为分类正确，否则分类错误。这里分类正确的个数为num，定义分类正确率为num/P，把分类正确率作为个体的适应度值，依此方法求出所以个体的适应度值，对初始群体进行遗传操作：按照适应度比例方法执行选择操作，以概率P₁执行单点交叉操作，交叉方式为交换两个匹配的个体中的g_i1，以概率P₂执行变异操作，变异方式是在g_i1，g_i2的取值范围(a₁,b₁)，(a₂,b₂)内随机产生值，替代g_i1，g_i2组成新个体，即新的参数(C,σ)组合值。这样不断进化，一直到G_max代结束。如图3所示，主要步骤如下：

①个体(染色体)编码和初始群体产生：在这个用户游戏沉迷判断模型中，参数g_i＝(g_i1,g_i2)＝(lgC,lgσ)编码来产生二进制形式的个体，因此，根据给定的精度，可以随机生成代表两个参数值组合的初始染色体群体，即给参数赋予初始值。

②用SVM计算个体适应度值：计算方法是把原始游戏数据集S分为训练集s_train和测试集s_test，然后通过不同个体所对应的分类器得到适应度值。在GA-SVM模型中使用交叉验证方法来计算适应函数以防止过适应或不适应现象。在M-折交叉验证中，训练集划分为M个相等的子集。一个自己作为验证集，其余M-1个子集作为SVM回归模型的训练集。然后重复上述的过程，使每个子集都有一次作为验证集。另外，平均绝对误差百分比(MAPE)作为适应函数，表示如下公式：

其中n代表了训练样本的个数，y_t和

分别是实际值和预测值。具有较小MAPE值的个体具有较高的概率在下一代还存活。

③交叉、变异，从而产生子代，即新的参数g_i＝(g_i1,g_i2)＝(lgC,lgσ)组合值，具有更好的适应值的个体更有可能选入下一代，两个染色体之间的基因被随机交换以找到交叉概率为0.7的更好的解。以0.7的概率执行变异将二进制代码形式从0变为1。

④判断是否符合终止条件：若群体中最优个体g_i＝(g_i1,g_i2)＝(lgC,lgσ)，所对应的适应度值足够大，或者算法已经迭代了多代且适应度值无明显改变，或者已经迭代了G_max代，则结束。

⑤确定SVM最优参数，确定最终的用户游戏沉迷分类模型，找到最优分界面，实现对每个游戏用户是否沉迷进行判定。

如图4所示，本发明的实施例还提供一种基于GA-SVM的游戏防沉迷判定系统100，所述基于GA-SVM的游戏防沉迷判定系统100包括：异常值处理模块110，缺失填补模块120以及判定模块130。

于本实施例中，所述异常值处理模块110用于检测已采集到的游戏数据中的异常值，并删除所述异常值。

于本实施例中，所述异常值处理模块110优选采用马哈拉诺比斯方法检测所述异常值。

于本实施例中，所述缺失填补模块120用于对删除异常值后的游戏数据进行缺失数据填补，形成完整用户游戏数据。

所述缺失填补模块120优选采用马尔科夫蒙特卡洛方法对删除异常值后的游戏数据进行缺失数据填补。

即使用马哈拉诺比斯方法(Mahalanobis Method)检测已采集到的游戏数据中的异常值，异常值包括系统检测到的异常的充值金额，登陆时间，登陆时长等，对这些游戏数据中的异常值进行删除。再使用马尔科夫蒙特卡洛方法对初步处理(异常值删除)过后的游戏数据进行缺失值填补，缺失游戏数据包括前期对异常值检测后删除所造成的缺失值，以及游戏用户的职业，年龄，性别等敏感不易得到从而造成缺失的游戏数据，对这些缺失游戏数据进行游戏数据填补得到不含缺失值不含异常值的完整游戏数据。

于本实施例中，所述判定模块130用于将所述完整用户游戏数据输入预先构建的GA-SVM分类模型，对用户游戏沉迷与否进行判定。

对于前期处理后的完整游戏数据，引入GA-SVM分类模型对用户游戏沉迷与否进行判定。首先随机产生一组应用于游戏防沉迷判定中的SVM模型参数，通过遗传算法对SVM模型的最优参数进行搜索，确定应用于游防沉迷系统中的游戏数据建模方法GA-SVM的模型参数。再根据已经确定的SVM模型参数对游戏数据进行建模，找到一个定义在特征空间上的间隔最大的线性分类器，利用间隔最大化求最优分离超平面，使得沉迷游戏的用户和未沉迷游戏的用户在特征空间中尽可能分离且间隔最大化，从而建立最终的用户游戏沉迷的GA-SVM分类模型。

如图5所示，于本实施例中，所述基于GA-SVM的游戏防沉迷判定系统100还包括GA-SVM分类模型的构建模块140，所述GA-SVM分类模型的构建模块140包括：建模参数确定单元和模型构建单元。

所述建模参数确定单元用于随机产生一组应用于游戏防沉迷判定中的SVM模型参数，并通过遗传算法对SVM模型的最优参数进行搜索，确定应用于游防沉迷系统中的游戏数据建模方法GA-SVM的模型参数。

所述模型构建单元用于根据已经确定的SVM模型参数对所述完整用户游戏数据进行建模，找到一个定义在特征空间上的间隔最大的线性分类器，利用间隔最大化求最优分离超平面，使得沉迷游戏的用户和未沉迷游戏的用户在特征空间中尽可能分离且间隔最大化，从而建立对用户游戏沉迷进行分类的GA-SVM分类模型。

综上所述，本发明针对游戏数据质量不高的情况，尤其是对于用户的性别，年龄，职业这些敏感信息，存在部分缺失，登录时间，充值金额等可能因为设备故障存在异常值，采取游戏数据处理技术，可以有效对游戏数据进行清洗，从而得到更加完整的游戏数据，有利于游戏数据信息提取，提高了游戏数据的利用率；本发明采用GA-SVM分类模型进行用户沉迷游戏判定，GA-SVM分类模型在实际分类中展现了较传统SVM方法更好的预测效果，但由于对缺失游戏数据敏感，经过前期游戏数据预处理之后，GA-SVM可以不受影响，从而达到较好的预测效果，GA-SVM分类模型参数采用遗传算法进行搜索，可以提高SVM分类模型的分类效果。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中包括通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于GA-SVM的游戏防沉迷判定方法，其特征在于，所述基于GA-SVM的游戏防沉迷判定方法包括：

检测已采集到的游戏数据中的异常值，并删除所述异常值；

对删除异常值后的游戏数据进行缺失数据填补，形成完整用户游戏数据；采用马尔科夫蒙特卡洛方法对删除异常值后的游戏数据进行缺失数据填补：

如果定义用户游戏数据中含有缺失值的用户游戏数据为x_mis，即游戏用户x_i的d个特征中含有缺失游戏数据，则x_i∈x_mis，不含有缺失值的观测值为x_obs，从条件分布P(x_mis|x_obs,θ)中为缺失值抽取填补值，其中θ为模型参数；在每一次循环运算中，用上一次填补步骤中得到的μ和Σ作为后验总体的均数向量，协方差矩阵，对参数θ进行模拟；

循环进行上述过程，产生一个马尔科夫链：

当该链会聚在一个稳定的分布P(x_mis,θ|x_obs,)时，从该分布中为游戏数据的缺失值抽取填补值；

将所述完整用户游戏数据输入预先构建的GA-SVM分类模型，对用户游戏沉迷与否进行判定；

所述GA-SVM分类模型的构建方法包括：

随机产生一组应用于游戏防沉迷判定中的SVM模型参数，并通过遗传算法对SVM模型的最优参数进行搜索，确定应用于游防沉迷系统中的游戏数据建模方法GA-SVM的模型参数；

根据已经确定的SVM模型参数对所述完整用户游戏数据进行建模，找到一个定义在特征空间上的间隔最大的线性分类器，利用间隔最大化求最优分离超平面，使得沉迷游戏的用户和未沉迷游戏的用户在特征空间中分离且间隔最大化，从而建立对用户游戏沉迷进行分类的GA-SVM分类模型。

2.根据权利要求1所述的基于GA-SVM的游戏防沉迷判定方法，其特征在于，所述异常值包括异常充值金额，异常登陆时间，异常登陆时长。

3.根据权利要求1所述的基于GA-SVM的游戏防沉迷判定方法，其特征在于，所述缺失数据包括对异常值检测后删除所造成的缺失值，游戏用户的职业，年龄以及性别。

4.根据权利要求1所述的基于GA-SVM的游戏防沉迷判定方法，其特征在于，采用马哈拉诺比斯方法检测所述异常值。

5.一种基于GA-SVM的游戏防沉迷判定系统，其特征在于，所述基于GA-SVM的游戏防沉迷判定系统包括：

异常值处理模块，用于检测已采集到的游戏数据中的异常值，并删除所述异常值；

缺失填补模块，用于对删除异常值后的游戏数据进行缺失数据填补，形成完整用户游戏数据；采用马尔科夫蒙特卡洛方法对删除异常值后的游戏数据进行缺失数据填补：

循环进行上述过程，产生一个马尔科夫链：

判定模块，用于将所述完整用户游戏数据输入预先构建的GA-SVM分类模型，对用户游戏沉迷与否进行判定；

GA-SVM分类模型的构建模块，所述GA-SVM分类模型的构建模块包括：

建模参数确定单元，用于随机产生一组应用于游戏防沉迷判定中的SVM模型参数，并通过遗传算法对SVM模型的最优参数进行搜索，确定应用于游防沉迷系统中的游戏数据建模方法GA-SVM的模型参数；

模型构建单元，用于根据已经确定的SVM模型参数对所述完整用户游戏数据进行建模，找到一个定义在特征空间上的间隔最大的线性分类器，利用间隔最大化求最优分离超平面，使得沉迷游戏的用户和未沉迷游戏的用户在特征空间中分离且间隔最大化，从而建立对用户游戏沉迷进行分类的GA-SVM分类模型。

6.根据权利要求5所述的基于GA-SVM的游戏防沉迷判定系统，其特征在于，所述异常值包括异常充值金额，异常登陆时间，异常登陆时长。

7.根据权利要求5所述的基于GA-SVM的游戏防沉迷判定系统，其特征在于，所述缺失数据包括对异常值检测后删除所造成的缺失值，游戏用户的职业，年龄以及性别。

8.根据权利要求5所述的基于GA-SVM的游戏防沉迷判定系统，其特征在于：所述异常值处理模块采用马哈拉诺比斯方法检测所述异常值。