CN109284776A

CN109284776A - 用于防沉迷系统的基于随机森林的自训练学习系统及方法

Info

Publication number: CN109284776A
Application number: CN201810974270.0A
Authority: CN
Inventors: 骆源; 徐彬; 方品; 应臣浩
Original assignee: Little Wo Science And Technology Ltd; Shanghai Jiaotong University
Current assignee: Little Wo Science And Technology Ltd; Shanghai Jiaotong University
Priority date: 2018-08-24
Filing date: 2018-08-24
Publication date: 2019-01-29
Anticipated expiration: 2038-08-24
Also published as: CN109284776B

Abstract

本发明提供一种用于防沉迷系统的基于随机森林的自训练学习系统及方法，所述方法包括：对至少一个已标记的游戏特征序列进行PCA训练获得游戏特征序列训练集；基于随机森林的分类器对未标记的游戏特征序列进行识别，将置信度最高的未标记的游戏特征序列添加到所述游戏特征序列训练集；重新对所述游戏特征序列训练集的数据进行PCA训练，直至达到预设循环次数或所述游戏特征序列训练集不再增大；利用所述游戏特征序列训练集对输入的测试游戏特征序列进行识别。本发明提供的基于随机森林的自学习方法，用于解决防沉迷系统中大量游戏序列数据无标记的问题，通过利用大量的未标记游戏序列数据和少量的标记游戏序列数据共同构建更好的分类器。

Description

用于防沉迷系统的基于随机森林的自训练学习系统及方法

技术领域

本发明涉及机器学习技术领域，特别是涉及一种用于防沉迷系统的基于随机森林的自训练学习系统及方法。

背景技术

游戏防沉迷系统自2007年已经运行了整整十年。2005年8月，新闻出版总署发布《网络游戏防沉迷系统开发标准》，要求国内7家大型网络游戏运营公司预备开发防沉迷系统。2005年9月，网游防沉迷系统在各大网游公司旗下产品中陆续安装并试运行。2006年3月，新闻出版总署发布《关于保护未成年人身心健康实施网络游戏防沉迷系统的通知》，决定于2007年4月15日起在中国推行网络游戏防沉迷系统。2007年7月16日，防沉迷系统全面实施。

游戏防沉迷系统的意义是众所周知的：旨在解决未成年人沉迷网络游戏的现状，让未成年人无法依赖长时间的在线来获得游戏内个人能力的增长和报偿值的增加，有效控制未成年人使用者的在线时间，改变不利于未成年人身心健康的不良游戏习惯。

但目前的防沉迷系统效果并不好，游戏逐渐成了精神鸦片。未成年人有太多种方法可以规避系统的简单约束，而且青年学生中很多大学生也沉迷其中。2017年7月《中国青年报》报道，对2013名受访者进行的一项调查显示，73.9％的受访者喜欢玩手游，78.4％的受访者表示身边沉迷手游的人多。56.3％的受访者认为沉迷手游是因为生活缺乏目标。受访者中，男性占54.9％，女性占45.1％。大学及以上学历者占75.7％，高中或中专学历者占19.1％，初中及以下的占5.2％。

由此看来，防沉迷系统的研究和开发工作迫在眉睫。而目前针对防沉迷系统的研究工作还较少，该领域还处于发展初期。

发明内容

为了解决上述的以及其他潜在的技术问题，本发明的实施例提供了一种用于防沉迷系统的基于随机森林的自训练学习方法，所述用于防沉迷系统的基于随机森林的自训练学习方法包括：对至少一个已标记的游戏特征序列进行PCA训练获得游戏特征序列训练集；基于随机森林的分类器对未标记的游戏特征序列进行识别，将置信度最高的未标记的游戏特征序列添加到所述游戏特征序列训练集；重新对所述游戏特征序列训练集的数据进行PCA训练，直至达到预设循环次数或所述游戏特征序列训练集不再增大；利用所述游戏特征序列训练集对输入的测试游戏特征序列进行识别。

于本发明的一实施例中，所述用于防沉迷系统的基于随机森林的自训练学习方法还包括：对输入的游戏序列数据进行提取，分别获取所述已标记的游戏特征序列和所述未标记的游戏特征序列。

于本发明的一实施例中，所述游戏序列数据的游戏特征至少包括游戏时间和游戏金额。

于本发明的一实施例中，所述基于随机森林的分类器对未标记的游戏特征序列进行识别，将置信度最高的未标记的游戏特征序列添加到所述游戏特征序列训练集的一种实现方式包括：利用随机森林的分类器来计算每个未标记的游戏特征序列的假标记，形成属于某一类的假标记集；从所述假标记集中选取一个与所述某一类同类的有标记的游戏特征序列距离最近的未标记的游戏特征序列；将该距离最近的所述未标记的游戏特征序列添加到所述游戏特征序列训练集。

于本发明的一实施例中，所述随机森林的分类器的一种形式为：

C^(t)＝RandomForest(D_L,DecisionTree,N)；

其中，C^(t)为分类器的输出分类结果，D_L为标记的游戏特征序列训练集，DecisionTree为子决策树，N为子决策树的个数，RandomForest为随机森林算法。

本发明的实施例还提供一种用于防沉迷系统的基于随机森林的自训练学习系统，所述用于防沉迷系统的基于随机森林的自训练学习系统包括：PCA训练模块，用于对至少一个已标记的游戏特征序列进行PCA训练获得游戏特征序列训练集；识别模块，用于基于随机森林的分类器对未标记的游戏特征序列进行识别，将置信度最高的未标记的游戏特征序列添加到所述游戏特征序列训练集；所述训练集模块重新对所述游戏特征序列训练集的数据进行PCA训练，直至达到预设循环次数或所述游戏特征序列训练集不再增大；测试模块，用于利用所述游戏特征序列训练集对输入的测试游戏特征序列进行识别。

于本发明的一实施例中，所述用于防沉迷系统的基于随机森林的自训练学习系统还包括：特征提取模块，用于对输入的游戏序列数据进行提取，分别获取所述已标记的游戏特征序列和所述未标记的游戏特征序列。

于本发明的一实施例中，所述识别模块包括：标记单元，用于利用随机森林的分类器来计算每个未标记的游戏特征序列的假标记，形成属于某一类的假标记集；选取单元，用于从所述假标记集中选取一个与所述某一类同类的有标记的游戏特征序列距离最近的未标记的游戏特征序列；添加单元，用于将该距离最近的所述未标记的游戏特征序列添加到所述游戏特征序列训练集。

C^(t)＝RandomForest(D_L,DecisionTree,N)；

如上所述，本发明的用于防沉迷系统的基于随机森林的自训练学习系统及方法具有以下有益效果：

1、本发明提供的基于随机森林的自学习方法，用于解决防沉迷系统中大量游戏序列数据无标记的问题，通过利用大量的未标记游戏序列数据和少量的标记游戏序列数据共同构建更好的分类器。

2、本发明采用训练和测试两个阶段来优化分类器。

3、本发明引入了信息量和正则化的概念，使得未标记数据的选取更加准确。

4、本发明具有极强的普遍适用性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1显示为本发明的用于防沉迷系统的基于随机森林的自训练学习方法的流程示意图。

图2显示为本发明的用于防沉迷系统的基于随机森林的自训练学习方法中对未标记的游戏特征序列进行处理的具体过程流程示意图。

图3显示为本发明的用于防沉迷系统的基于随机森林的自训练学习系统的原理框图。

图4显示为本发明的用于防沉迷系统的基于随机森林的自训练学习系统中识别模块的原理框图。

图5显示为本发明的用于防沉迷系统的基于随机森林的自训练学习系统的工作过程示意图。

元件标号说明

100 自训练学习系统

110 PCA训练模块

120 识别模块

121 标记单元

122 选取单元

123 添加单元

130 测试模块

140 特征提取模块

S110～S140 步骤

S121～S123 步骤

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1至图5。须知，本说明书所附图式所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。同时，本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

本发明属于机器学习领域，涉及随机森林、Self-training以及Tri-training算法，具体是定义了一个基于随机森林的Self-training方法，命名为RF-ST，并将其应用在防沉迷系统研究中。RF-ST算法被设计成Tri-training和Self-training的组合，这样就可以将基于随机森林的Self-training算法变成Tri-training算法的无参数变体，产生一个最终的分类器，可以继承随机森林模型的优点。

本实施例为一种用于防沉迷系统的基于随机森林的自训练学习系统和方法，针对游戏数据存在大量无标记数据的问题，为了减少人为标记时间，将基于随机森林的Self-training方法(RF-ST)应用在防沉迷系统领域。该方法基于少量已标记数据和大量无标记数据，结合Tri-training和Self-training两种算法，可以提高分类器的分类性能。

目前没有发现同本发明类似技术的说明或报道，也尚未收集到国内外类似的资料。

以下将详细阐述本实施例的用于防沉迷系统的基于随机森林的自训练学习系统及方法的原理及实施方式，使本领域技术人员不需要创造性劳动即可理解本实施例的用于防沉迷系统的基于随机森林的自训练学习系统及方法。

如图1所示，本发明的实施例提供了提供了一种用于防沉迷系统的基于随机森林的自训练学习方法，所述用于防沉迷系统的基于随机森林的自训练学习方法包括：

步骤S110，对至少一个已标记的游戏特征序列进行PCA训练获得游戏特征序列训练集；

步骤S120，基于随机森林的分类器对未标记的游戏特征序列进行识别，将置信度最高的未标记的游戏特征序列添加到所述游戏特征序列训练集；

步骤S130，重新对所述游戏特征序列训练集的数据进行PCA训练，直至达到预设循环次数或所述游戏特征序列训练集不再增大；

步骤S140，利用所述游戏特征序列训练集对输入的测试游戏特征序列进行识别。

以下对本实施例中的步骤S110至步骤S140进行详细说明。

为了解决防沉迷系统中大量游戏序列数据无标记的问题，本实施例引入基于随机森林的Self-training(自学习)方法，通过利用大量的未标记游戏序列数据和少量的标记游戏序列数据共同构建更好的分类器。

首先，利用少量的标记序列游戏数据进行PCA训练获得特征空间矩阵并进一步求得游戏序列数据的特征(即训练集)，然后使用该训练集得到基于随机森林的分类器，再对未标记游戏序列数据进行分类。通常会将每类中置信度最高的未标记游戏序列数据及其预测的类别添加到训练集中。然后对新的训练集重新进行PCA训练，重复该过程直到达到一定的循环次数或者训练集不再增大。使用基于随机森林的Self-training方法，即使初始时每类只有一个标记的游戏序列数据，在大量未标记的游戏序列数据的帮助下，系统依旧能自动优化至较好的性能。

具体地，步骤S110至步骤S130为第一阶段训练阶段：

首先预处理，然后进行自训练学习。自训练学习过程即利用PCA对少量标记的游戏序列数据进行训练获得特征空间矩阵并形成训练集；使用随机森林的方法来训练模型，并选取置信度最高的未标记游戏序列数据添加到训练集中；最后对新的训练集重新进行PCA训练；重复该过程直到训练集不再增大。

步骤S110，对至少一个已标记的游戏特征序列进行PCA训练获得游戏特征序列训练集。

于本实施例中，所述用于防沉迷系统的基于随机森林的自训练学习方法还包括：对输入的游戏序列数据进行提取，分别获取所述已标记的游戏特征序列和所述未标记的游戏特征序列。

其中，所述游戏序列数据的游戏特征包括但不限于游戏时间和游戏金额等。

假设D_L(x_1,x_2,…,x_|L|)表示标记的游戏序列数据集，大小为|L|；D_U(x_(|L|+1)，x_(|L|+2),…,x_(|L|+|U|))表示未标记的游戏序列数据集，大小为|U|。y_i表示x_i的标记，(共有n类)。根据半监督的思想可以得到，初始时的|L|远小于|U|。

根据已知的PCA主成分分析的训练思想，可以利用D_L来计算游戏特征转换矩阵E，其中的游戏特征包括游戏时间、游戏金额等，然后将D_L中的所有游戏数据都投影到该特征空间中。投影结束后，可以根据下面的两个公式获得每个游戏序列对应的特征。

对于每个游戏序列数据，利用下面的公式可以计算其对应的序列值在特征空间中的投影质心C_i：

设投影质心C_i对应的单位向量为v_i，则v_i就是该游戏序列数据的特征。

步骤S120，基于随机森林的分类器对未标记的游戏特征序列进行识别，将置信度最高的未标记的游戏特征序列添加到所述游戏特征序列训练集。

具体地，如图2所示，于本实施例中，所述基于随机森林的分类器对未标记的游戏特征序列进行识别，将置信度最高的未标记的游戏特征序列添加到所述游戏特征序列训练集的一种实现方式包括：

步骤S121，利用随机森林的分类器来计算每个未标记的游戏特征序列的假标记，形成属于某一类的假标记集。

将D_U中的所有游戏序列数据都投影到这个特征空间上，然后使用基于随机森林的分类器来计算每个未标记的游戏数据的假标记。假设属于第i类的假标记集为P_i(i＝1,2,...,c)，P_i包含了所有属于第i类的未标记游戏序列。

步骤S122，从所述假标记集中选取一个与所述某一类同类的有标记的游戏特征序列距离最近的未标记的游戏特征序列。

对每一类来说(以第i类为例)，从P_i中选出一个与属于类i的所有标记游戏序列距离最近的未标记游戏序列(记作x_i)，并将其添加到该类中，使其成为真正有标记的游戏序列。更新有标记的游戏序列集D_L(D_L＝D_L+x_i),并将u_i移出D_U(D_U＝D_U-x_i)。

步骤S123，将该距离最近的所述未标记的游戏特征序列添加到所述游戏特征序列训练集。

随机森林方法训练处多个决策树(分类器)，并通过各种不同的方法使分类器具有不同的分类边界，最后通过投票的方式来输出结果。分类器平均准确率和分类器之间的差异性是影响组合分类方法准确率的主要两个因素。

由主动学习的基本思想可以得到，对提高分类器的准确率最有效的是当前最无法确定的游戏数据，也就是相对当前分类器而言具有最大信息量的游戏数据。这样的游戏数据可以尽可能地降低假设空间的大小。常见的主动学习算法如QBag和QBoost在每一轮分类中针对有最大分歧的无标记游戏数据进行查询标记。

计算一个无标记游戏数据x的信息量：Con(x,y)表示集成分类器C对游戏数据x分类为标记y的可信度，可以用下面的式子表示：

其中：C_i(x)第i个子分类器C_i对x的分类标记。H(x)表示C的子分类器对x分类的分歧程度，值越大表示分歧越大。此时如果将C(x)作为x的伪标记加入到D_L中来进行下一轮训练，会引入噪声。因此需要正则化来过滤噪声。

正则化方法作为监督学习方法中的一个分支，作用非常大。它可以将样本表示为图中的节点，节点间的边具有权值，该权值由两个节点的相似度决定，相似度越大则权值越大。正则化方法包含两个基本的假设：

1、距离最近的两个点应该具有相同的类标记；

2、处于同一个结构的两个点应具有相同的类标记。

首先为无标记游戏数据设置一个正则化惩罚值，来描述这个无标记的点与其相邻的已标记节点间的不一致程度。构造一个k邻近图G，将D_L和D_U中的点表示为G图中的节点，每一个无标记的游戏数据都会有和它最近的k个节点相邻。假设L_k(x)表示D_L中与x最邻近的k个节点，d(x,z)表示节点x和节点z之间的距离，σ²表示样本的方差。则按照下面的式子计算节点x的正则化量：

其中：Reg(x)值越大，说明噪声越大，即对x估计所得到的标记y和当前标记集I不一致程度越大。

考虑x相对于标记集I的孤立程度，定义为Iso(x)，放置将一些离群点加入训练集：

最终得到对无标记游戏数据x的评价函数f(x)为：

f(x)＝H(x)-α*Reg(x)-β*Iso(x)。

步骤S130，重新对所述游戏特征序列训练集的数据进行PCA训练，直至达到预设循环次数或所述游戏特征序列训练集不再增大。

直到有标记的游戏序列集D_L不再增大，算法结束。

于本实施例中，所述随机森林的分类器的一种形式为：

C^(t)＝RandomForest(D_L,DecisionTree,N)；

基于随机森林的正则化Self-training算法如下：

假设有参数如下：D_L为标记游戏数据集，D_U为未标记游戏数据集，T表示最大循环轮数，RandomForest为随机森林算法，DecisionTree为子决策树，N表示子决策树的个数，U'为无标记游戏数据采样池，η为无标记游戏数据采样比例。

算法步骤如下：

1)令t＝0，C⁽⁰⁾＝RandomForest(D_L,DecisionTree,N)；循环T轮

2)令D_U'＝φ；

3)对每个x∈D_U，用f(x)＝H(x)-α*Reg(x)-β*Iso(x)计算评价函数f(x)，如果f(x)大于阈值F，则将x加入D_U'；

4)如果|D_U'|＜|D_L|*η，则表示没有足够多的无标记游戏数据可以利用，循环呗终止，返回C^(t)作为最终的分类器，否则从D_U'中采样出|D_L|*η个无标记游戏数据的子集S；

5)令D_L＝D_L∪S，D_U＝D_U-S；

6)t＝t+1；

7)C^(t)＝RandomForest(D_L,DecisionTree,N)。

所以本实施例将基于随机森林的自训练学习(Self-training方法)引入防沉迷系统，可以解决防沉迷系统中大量游戏序列数据无标记的问题。通过利用大量的未标记游戏序列数据和少量的标记游戏序列数据共同构建更好的分类器。利用少量的标记序列游戏数据进行PCA训练获得特征空间矩阵并进一步求得游戏序列数据的特征(即训练集)，然后使用该训练集得到的基于随机森林的分类器对未标记游戏序列数据进行分类。通常会将每类中置信度最高的未标记游戏序列数据及其预测的类别添加到训练集中。然后对新的训练集重新进行PCA训练，重复该过程直到达到一定的循环次数或者训练集不再增大。使用基于随机森林的Self-training方法，即使初始时每类只有一个标记的游戏序列数据，在大量未标记的游戏序列数据的帮助下，系统依旧能自动优化至较好的性能。

提取所需要游戏特征序列数据，其中的游戏特征包括游戏时间、游戏金额等，然后投影到最终的特征空间，并利用基于随机森林的分类器实现待测试游戏特征序列的识别。

本发明的实施例还提供一种用于防沉迷系统的基于随机森林的自训练学习系统，如图3和图5所示，所述用于防沉迷系统的基于随机森林的自训练学习系统100包括：PCA训练模块110，识别模块120，测试模块130以及特征提取模块140。

于本实施例中，所述特征提取模块140用于对输入的游戏序列数据进行提取，分别获取所述已标记的游戏特征序列和所述未标记的游戏特征序列。

其中，所述游戏序列数据的游戏特征至少包括游戏时间和游戏金额。

于本实施例中，所述PCA训练模块110用于对至少一个已标记的游戏特征序列进行PCA训练获得游戏特征序列训练集。

于本实施例中，所述识别模块120用于基于随机森林的分类器对未标记的游戏特征序列进行识别，将置信度最高的未标记的游戏特征序列添加到所述游戏特征序列训练集；所述训练集模块重新对所述游戏特征序列训练集的数据进行PCA训练，直至达到预设循环次数或所述游戏特征序列训练集不再增大。

于本实施例中，所述随机森林的分类器的一种形式为：

C^(t)＝RandomForest(D_L,DecisionTree,N)；

具体地，于本实施例中，如图4所示，所述识别模块120包括：标记单元121，选取单元122以及添加单元123。

所述标记单元121用于利用随机森林的分类器来计算每个未标记的游戏特征序列的假标记，形成属于某一类的假标记集。

所述选取单元122用于从所述假标记集中选取一个与所述某一类同类的有标记的游戏特征序列距离最近的未标记的游戏特征序列。

所述添加单元123用于将该距离最近的所述未标记的游戏特征序列添加到所述游戏特征序列训练集。

于本实施例中，所述测试模块130用于利用所述游戏特征序列训练集对输入的测试游戏特征序列进行识别。

综上所述，本发明提供的基于随机森林的自学习方法，用于解决防沉迷系统中大量游戏序列数据无标记的问题，通过利用大量的未标记游戏序列数据和少量的标记游戏序列数据共同构建更好的分类器；本发明采用训练和测试两个阶段来优化分类器；本发明引入了信息量和正则化的概念，使得未标记数据的选取更加准确；本发明具有极强的普遍适用性。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中包括通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种用于防沉迷系统的基于随机森林的自训练学习方法，其特征在于，所述用于防沉迷系统的基于随机森林的自训练学习方法包括：

对至少一个已标记的游戏特征序列进行PCA训练获得游戏特征序列训练集；

基于随机森林的分类器对未标记的游戏特征序列进行识别，将置信度最高的未标记的游戏特征序列添加到所述游戏特征序列训练集；

重新对所述游戏特征序列训练集的数据进行PCA训练，直至达到预设循环次数或所述游戏特征序列训练集不再增大；

利用所述游戏特征序列训练集对输入的测试游戏特征序列进行识别。

2.根据权利要求1所述的用于防沉迷系统的基于随机森林的自训练学习方法，其特征在于，所述用于防沉迷系统的基于随机森林的自训练学习方法还包括：

对输入的游戏序列数据进行提取，分别获取所述已标记的游戏特征序列和所述未标记的游戏特征序列。

3.根据权利要求1或2所述的用于防沉迷系统的基于随机森林的自训练学习方法，其特征在于，所述游戏序列数据的游戏特征至少包括游戏时间和游戏金额。

4.根据权利要求1所述的用于防沉迷系统的基于随机森林的自训练学习方法，其特征在于，所述基于随机森林的分类器对未标记的游戏特征序列进行识别，将置信度最高的未标记的游戏特征序列添加到所述游戏特征序列训练集的一种实现方式包括：

利用随机森林的分类器来计算每个未标记的游戏特征序列的假标记，形成属于某一类的假标记集；

从所述假标记集中选取一个与所述某一类同类的有标记的游戏特征序列距离最近的未标记的游戏特征序列；

将该距离最近的所述未标记的游戏特征序列添加到所述游戏特征序列训练集。

5.根据权利要求1所述的用于防沉迷系统的基于随机森林的自训练学习方法，其特征在于，所述随机森林的分类器的一种形式为：

C^(t)＝RandomForest(D_L,DecisionTree,N)；

6.一种用于防沉迷系统的基于随机森林的自训练学习系统，其特征在于，所述用于防沉迷系统的基于随机森林的自训练学习系统包括：

PCA训练模块，用于对至少一个已标记的游戏特征序列进行PCA训练获得游戏特征序列训练集；

识别模块，用于基于随机森林的分类器对未标记的游戏特征序列进行识别，将置信度最高的未标记的游戏特征序列添加到所述游戏特征序列训练集；所述训练集模块重新对所述游戏特征序列训练集的数据进行PCA训练，直至达到预设循环次数或所述游戏特征序列训练集不再增大；

测试模块，用于利用所述游戏特征序列训练集对输入的测试游戏特征序列进行识别。

7.根据权利要求6所述的用于防沉迷系统的基于随机森林的自训练学习系统，其特征在于，所述用于防沉迷系统的基于随机森林的自训练学习系统还包括：

特征提取模块，用于对输入的游戏序列数据进行提取，分别获取所述已标记的游戏特征序列和所述未标记的游戏特征序列。

8.根据权利要求6或7所述的用于防沉迷系统的基于随机森林的自训练学习系统，其特征在于，所述游戏序列数据的游戏特征至少包括游戏时间和游戏金额。

9.根据权利要求6所述的用于防沉迷系统的基于随机森林的自训练学习系统，其特征在于，所述识别模块包括：

标记单元，用于利用随机森林的分类器来计算每个未标记的游戏特征序列的假标记，形成属于某一类的假标记集；

选取单元，用于从所述假标记集中选取一个与所述某一类同类的有标记的游戏特征序列距离最近的未标记的游戏特征序列；

添加单元，用于将该距离最近的所述未标记的游戏特征序列添加到所述游戏特征序列训练集。

10.根据权利要求6所述的用于防沉迷系统的基于随机森林的自训练学习系统，其特征在于：所述随机森林的分类器的一种形式为：

C^(t)＝RandomForest(D_L,DecisionTree,N)；