CN109284776A - 用于防沉迷系统的基于随机森林的自训练学习系统及方法 - Google Patents
用于防沉迷系统的基于随机森林的自训练学习系统及方法 Download PDFInfo
- Publication number
- CN109284776A CN109284776A CN201810974270.0A CN201810974270A CN109284776A CN 109284776 A CN109284776 A CN 109284776A CN 201810974270 A CN201810974270 A CN 201810974270A CN 109284776 A CN109284776 A CN 109284776A
- Authority
- CN
- China
- Prior art keywords
- characteristic sequence
- game
- game characteristic
- training
- random forest
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/285—Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种用于防沉迷系统的基于随机森林的自训练学习系统及方法,所述方法包括:对至少一个已标记的游戏特征序列进行PCA训练获得游戏特征序列训练集;基于随机森林的分类器对未标记的游戏特征序列进行识别,将置信度最高的未标记的游戏特征序列添加到所述游戏特征序列训练集;重新对所述游戏特征序列训练集的数据进行PCA训练,直至达到预设循环次数或所述游戏特征序列训练集不再增大;利用所述游戏特征序列训练集对输入的测试游戏特征序列进行识别。本发明提供的基于随机森林的自学习方法,用于解决防沉迷系统中大量游戏序列数据无标记的问题,通过利用大量的未标记游戏序列数据和少量的标记游戏序列数据共同构建更好的分类器。
Description
技术领域
本发明涉及机器学习技术领域,特别是涉及一种用于防沉迷系统的基于随机森林的自训练学习系统及方法。
背景技术
游戏防沉迷系统自2007年已经运行了整整十年。2005年8月,新闻出版总署发布《网络游戏防沉迷系统开发标准》,要求国内7家大型网络游戏运营公司预备开发防沉迷系统。2005年9月,网游防沉迷系统在各大网游公司旗下产品中陆续安装并试运行。2006年3月,新闻出版总署发布《关于保护未成年人身心健康实施网络游戏防沉迷系统的通知》,决定于2007年4月15日起在中国推行网络游戏防沉迷系统。2007年7月16日,防沉迷系统全面实施。
游戏防沉迷系统的意义是众所周知的:旨在解决未成年人沉迷网络游戏的现状,让未成年人无法依赖长时间的在线来获得游戏内个人能力的增长和报偿值的增加,有效控制未成年人使用者的在线时间,改变不利于未成年人身心健康的不良游戏习惯。
但目前的防沉迷系统效果并不好,游戏逐渐成了精神鸦片。未成年人有太多种方法可以规避系统的简单约束,而且青年学生中很多大学生也沉迷其中。2017年7月《中国青年报》报道,对2013名受访者进行的一项调查显示,73.9%的受访者喜欢玩手游,78.4%的受访者表示身边沉迷手游的人多。56.3%的受访者认为沉迷手游是因为生活缺乏目标。受访者中,男性占54.9%,女性占45.1%。大学及以上学历者占75.7%,高中或中专学历者占19.1%,初中及以下的占5.2%。
由此看来,防沉迷系统的研究和开发工作迫在眉睫。而目前针对防沉迷系统的研究工作还较少,该领域还处于发展初期。
发明内容
为了解决上述的以及其他潜在的技术问题,本发明的实施例提供了一种用于防沉迷系统的基于随机森林的自训练学习方法,所述用于防沉迷系统的基于随机森林的自训练学习方法包括:对至少一个已标记的游戏特征序列进行PCA训练获得游戏特征序列训练集;基于随机森林的分类器对未标记的游戏特征序列进行识别,将置信度最高的未标记的游戏特征序列添加到所述游戏特征序列训练集;重新对所述游戏特征序列训练集的数据进行PCA训练,直至达到预设循环次数或所述游戏特征序列训练集不再增大;利用所述游戏特征序列训练集对输入的测试游戏特征序列进行识别。
于本发明的一实施例中,所述用于防沉迷系统的基于随机森林的自训练学习方法还包括:对输入的游戏序列数据进行提取,分别获取所述已标记的游戏特征序列和所述未标记的游戏特征序列。
于本发明的一实施例中,所述游戏序列数据的游戏特征至少包括游戏时间和游戏金额。
于本发明的一实施例中,所述基于随机森林的分类器对未标记的游戏特征序列进行识别,将置信度最高的未标记的游戏特征序列添加到所述游戏特征序列训练集的一种实现方式包括:利用随机森林的分类器来计算每个未标记的游戏特征序列的假标记,形成属于某一类的假标记集;从所述假标记集中选取一个与所述某一类同类的有标记的游戏特征序列距离最近的未标记的游戏特征序列;将该距离最近的所述未标记的游戏特征序列添加到所述游戏特征序列训练集。
于本发明的一实施例中,所述随机森林的分类器的一种形式为:
C(t)=RandomForest(DL,DecisionTree,N);
其中,C(t)为分类器的输出分类结果,DL为标记的游戏特征序列训练集,DecisionTree为子决策树,N为子决策树的个数,RandomForest为随机森林算法。
本发明的实施例还提供一种用于防沉迷系统的基于随机森林的自训练学习系统,所述用于防沉迷系统的基于随机森林的自训练学习系统包括:PCA训练模块,用于对至少一个已标记的游戏特征序列进行PCA训练获得游戏特征序列训练集;识别模块,用于基于随机森林的分类器对未标记的游戏特征序列进行识别,将置信度最高的未标记的游戏特征序列添加到所述游戏特征序列训练集;所述训练集模块重新对所述游戏特征序列训练集的数据进行PCA训练,直至达到预设循环次数或所述游戏特征序列训练集不再增大;测试模块,用于利用所述游戏特征序列训练集对输入的测试游戏特征序列进行识别。
于本发明的一实施例中,所述用于防沉迷系统的基于随机森林的自训练学习系统还包括:特征提取模块,用于对输入的游戏序列数据进行提取,分别获取所述已标记的游戏特征序列和所述未标记的游戏特征序列。
于本发明的一实施例中,所述游戏序列数据的游戏特征至少包括游戏时间和游戏金额。
于本发明的一实施例中,所述识别模块包括:标记单元,用于利用随机森林的分类器来计算每个未标记的游戏特征序列的假标记,形成属于某一类的假标记集;选取单元,用于从所述假标记集中选取一个与所述某一类同类的有标记的游戏特征序列距离最近的未标记的游戏特征序列;添加单元,用于将该距离最近的所述未标记的游戏特征序列添加到所述游戏特征序列训练集。
于本发明的一实施例中,所述随机森林的分类器的一种形式为:
C(t)=RandomForest(DL,DecisionTree,N);
其中,C(t)为分类器的输出分类结果,DL为标记的游戏特征序列训练集,DecisionTree为子决策树,N为子决策树的个数,RandomForest为随机森林算法。
如上所述,本发明的用于防沉迷系统的基于随机森林的自训练学习系统及方法具有以下有益效果:
1、本发明提供的基于随机森林的自学习方法,用于解决防沉迷系统中大量游戏序列数据无标记的问题,通过利用大量的未标记游戏序列数据和少量的标记游戏序列数据共同构建更好的分类器。
2、本发明采用训练和测试两个阶段来优化分类器。
3、本发明引入了信息量和正则化的概念,使得未标记数据的选取更加准确。
4、本发明具有极强的普遍适用性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1显示为本发明的用于防沉迷系统的基于随机森林的自训练学习方法的流程示意图。
图2显示为本发明的用于防沉迷系统的基于随机森林的自训练学习方法中对未标记的游戏特征序列进行处理的具体过程流程示意图。
图3显示为本发明的用于防沉迷系统的基于随机森林的自训练学习系统的原理框图。
图4显示为本发明的用于防沉迷系统的基于随机森林的自训练学习系统中识别模块的原理框图。
图5显示为本发明的用于防沉迷系统的基于随机森林的自训练学习系统的工作过程示意图。
元件标号说明
100 自训练学习系统
110 PCA训练模块
120 识别模块
121 标记单元
122 选取单元
123 添加单元
130 测试模块
140 特征提取模块
S110~S140 步骤
S121~S123 步骤
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1至图5。须知,本说明书所附图式所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。同时,本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
本发明属于机器学习领域,涉及随机森林、Self-training以及Tri-training算法,具体是定义了一个基于随机森林的Self-training方法,命名为RF-ST,并将其应用在防沉迷系统研究中。RF-ST算法被设计成Tri-training和Self-training的组合,这样就可以将基于随机森林的Self-training算法变成Tri-training算法的无参数变体,产生一个最终的分类器,可以继承随机森林模型的优点。
本实施例为一种用于防沉迷系统的基于随机森林的自训练学习系统和方法,针对游戏数据存在大量无标记数据的问题,为了减少人为标记时间,将基于随机森林的Self-training方法(RF-ST)应用在防沉迷系统领域。该方法基于少量已标记数据和大量无标记数据,结合Tri-training和Self-training两种算法,可以提高分类器的分类性能。
目前没有发现同本发明类似技术的说明或报道,也尚未收集到国内外类似的资料。
以下将详细阐述本实施例的用于防沉迷系统的基于随机森林的自训练学习系统及方法的原理及实施方式,使本领域技术人员不需要创造性劳动即可理解本实施例的用于防沉迷系统的基于随机森林的自训练学习系统及方法。
如图1所示,本发明的实施例提供了提供了一种用于防沉迷系统的基于随机森林的自训练学习方法,所述用于防沉迷系统的基于随机森林的自训练学习方法包括:
步骤S110,对至少一个已标记的游戏特征序列进行PCA训练获得游戏特征序列训练集;
步骤S120,基于随机森林的分类器对未标记的游戏特征序列进行识别,将置信度最高的未标记的游戏特征序列添加到所述游戏特征序列训练集;
步骤S130,重新对所述游戏特征序列训练集的数据进行PCA训练,直至达到预设循环次数或所述游戏特征序列训练集不再增大;
步骤S140,利用所述游戏特征序列训练集对输入的测试游戏特征序列进行识别。
以下对本实施例中的步骤S110至步骤S140进行详细说明。
为了解决防沉迷系统中大量游戏序列数据无标记的问题,本实施例引入基于随机森林的Self-training(自学习)方法,通过利用大量的未标记游戏序列数据和少量的标记游戏序列数据共同构建更好的分类器。
首先,利用少量的标记序列游戏数据进行PCA训练获得特征空间矩阵并进一步求得游戏序列数据的特征(即训练集),然后使用该训练集得到基于随机森林的分类器,再对未标记游戏序列数据进行分类。通常会将每类中置信度最高的未标记游戏序列数据及其预测的类别添加到训练集中。然后对新的训练集重新进行PCA训练,重复该过程直到达到一定的循环次数或者训练集不再增大。使用基于随机森林的Self-training方法,即使初始时每类只有一个标记的游戏序列数据,在大量未标记的游戏序列数据的帮助下,系统依旧能自动优化至较好的性能。
具体地,步骤S110至步骤S130为第一阶段训练阶段:
首先预处理,然后进行自训练学习。自训练学习过程即利用PCA对少量标记的游戏序列数据进行训练获得特征空间矩阵并形成训练集;使用随机森林的方法来训练模型,并选取置信度最高的未标记游戏序列数据添加到训练集中;最后对新的训练集重新进行PCA训练;重复该过程直到训练集不再增大。
步骤S110,对至少一个已标记的游戏特征序列进行PCA训练获得游戏特征序列训练集。
于本实施例中,所述用于防沉迷系统的基于随机森林的自训练学习方法还包括:对输入的游戏序列数据进行提取,分别获取所述已标记的游戏特征序列和所述未标记的游戏特征序列。
其中,所述游戏序列数据的游戏特征包括但不限于游戏时间和游戏金额等。
假设D_L(x_1,x_2,…,x_|L|)表示标记的游戏序列数据集,大小为|L|;D_U(x_(|L|+1),x_(|L|+2),…,x_(|L|+|U|))表示未标记的游戏序列数据集,大小为|U|。y_i表示x_i的标记,(共有n类)。根据半监督的思想可以得到,初始时的|L|远小于|U|。
根据已知的PCA主成分分析的训练思想,可以利用D_L来计算游戏特征转换矩阵E,其中的游戏特征包括游戏时间、游戏金额等,然后将D_L中的所有游戏数据都投影到该特征空间中。投影结束后,可以根据下面的两个公式获得每个游戏序列对应的特征。
对于每个游戏序列数据,利用下面的公式可以计算其对应的序列值在特征空间中的投影质心Ci:
设投影质心Ci对应的单位向量为vi,则vi就是该游戏序列数据的特征。
步骤S120,基于随机森林的分类器对未标记的游戏特征序列进行识别,将置信度最高的未标记的游戏特征序列添加到所述游戏特征序列训练集。
具体地,如图2所示,于本实施例中,所述基于随机森林的分类器对未标记的游戏特征序列进行识别,将置信度最高的未标记的游戏特征序列添加到所述游戏特征序列训练集的一种实现方式包括:
步骤S121,利用随机森林的分类器来计算每个未标记的游戏特征序列的假标记,形成属于某一类的假标记集。
将DU中的所有游戏序列数据都投影到这个特征空间上,然后使用基于随机森林的分类器来计算每个未标记的游戏数据的假标记。假设属于第i类的假标记集为Pi(i=1,2,...,c),Pi包含了所有属于第i类的未标记游戏序列。
步骤S122,从所述假标记集中选取一个与所述某一类同类的有标记的游戏特征序列距离最近的未标记的游戏特征序列。
对每一类来说(以第i类为例),从Pi中选出一个与属于类i的所有标记游戏序列距离最近的未标记游戏序列(记作xi),并将其添加到该类中,使其成为真正有标记的游戏序列。更新有标记的游戏序列集DL(DL=DL+xi),并将ui移出DU(DU=DU-xi)。
步骤S123,将该距离最近的所述未标记的游戏特征序列添加到所述游戏特征序列训练集。
随机森林方法训练处多个决策树(分类器),并通过各种不同的方法使分类器具有不同的分类边界,最后通过投票的方式来输出结果。分类器平均准确率和分类器之间的差异性是影响组合分类方法准确率的主要两个因素。
由主动学习的基本思想可以得到,对提高分类器的准确率最有效的是当前最无法确定的游戏数据,也就是相对当前分类器而言具有最大信息量的游戏数据。这样的游戏数据可以尽可能地降低假设空间的大小。常见的主动学习算法如QBag和QBoost在每一轮分类中针对有最大分歧的无标记游戏数据进行查询标记。
计算一个无标记游戏数据x的信息量:Con(x,y)表示集成分类器C对游戏数据x分类为标记y的可信度,可以用下面的式子表示:
其中:Ci(x)第i个子分类器Ci对x的分类标记。H(x)表示C的子分类器对x分类的分歧程度,值越大表示分歧越大。此时如果将C(x)作为x的伪标记加入到DL中来进行下一轮训练,会引入噪声。因此需要正则化来过滤噪声。
正则化方法作为监督学习方法中的一个分支,作用非常大。它可以将样本表示为图中的节点,节点间的边具有权值,该权值由两个节点的相似度决定,相似度越大则权值越大。正则化方法包含两个基本的假设:
1、距离最近的两个点应该具有相同的类标记;
2、处于同一个结构的两个点应具有相同的类标记。
首先为无标记游戏数据设置一个正则化惩罚值,来描述这个无标记的点与其相邻的已标记节点间的不一致程度。构造一个k邻近图G,将DL和DU中的点表示为G图中的节点,每一个无标记的游戏数据都会有和它最近的k个节点相邻。假设Lk(x)表示DL中与x最邻近的k个节点,d(x,z)表示节点x和节点z之间的距离,σ2表示样本的方差。则按照下面的式子计算节点x的正则化量:
其中:Reg(x)值越大,说明噪声越大,即对x估计所得到的标记y和当前标记集I不一致程度越大。
考虑x相对于标记集I的孤立程度,定义为Iso(x),放置将一些离群点加入训练集:
最终得到对无标记游戏数据x的评价函数f(x)为:
f(x)=H(x)-α*Reg(x)-β*Iso(x)。
步骤S130,重新对所述游戏特征序列训练集的数据进行PCA训练,直至达到预设循环次数或所述游戏特征序列训练集不再增大。
直到有标记的游戏序列集D_L不再增大,算法结束。
于本实施例中,所述随机森林的分类器的一种形式为:
C(t)=RandomForest(DL,DecisionTree,N);
其中,C(t)为分类器的输出分类结果,DL为标记的游戏特征序列训练集,DecisionTree为子决策树,N为子决策树的个数,RandomForest为随机森林算法。
基于随机森林的正则化Self-training算法如下:
假设有参数如下:DL为标记游戏数据集,DU为未标记游戏数据集,T表示最大循环轮数,RandomForest为随机森林算法,DecisionTree为子决策树,N表示子决策树的个数,U'为无标记游戏数据采样池,η为无标记游戏数据采样比例。
算法步骤如下:
1)令t=0,C(0)=RandomForest(DL,DecisionTree,N);循环T轮
2)令DU'=φ;
3)对每个x∈DU,用f(x)=H(x)-α*Reg(x)-β*Iso(x)计算评价函数f(x),如果f(x)大于阈值F,则将x加入DU';
4)如果|DU'|<|DL|*η,则表示没有足够多的无标记游戏数据可以利用,循环呗终止,返回C(t)作为最终的分类器,否则从DU'中采样出|DL|*η个无标记游戏数据的子集S;
5)令DL=DL∪S,DU=DU-S;
6)t=t+1;
7)C(t)=RandomForest(DL,DecisionTree,N)。
所以本实施例将基于随机森林的自训练学习(Self-training方法)引入防沉迷系统,可以解决防沉迷系统中大量游戏序列数据无标记的问题。通过利用大量的未标记游戏序列数据和少量的标记游戏序列数据共同构建更好的分类器。利用少量的标记序列游戏数据进行PCA训练获得特征空间矩阵并进一步求得游戏序列数据的特征(即训练集),然后使用该训练集得到的基于随机森林的分类器对未标记游戏序列数据进行分类。通常会将每类中置信度最高的未标记游戏序列数据及其预测的类别添加到训练集中。然后对新的训练集重新进行PCA训练,重复该过程直到达到一定的循环次数或者训练集不再增大。使用基于随机森林的Self-training方法,即使初始时每类只有一个标记的游戏序列数据,在大量未标记的游戏序列数据的帮助下,系统依旧能自动优化至较好的性能。
步骤S140,利用所述游戏特征序列训练集对输入的测试游戏特征序列进行识别。
提取所需要游戏特征序列数据,其中的游戏特征包括游戏时间、游戏金额等,然后投影到最终的特征空间,并利用基于随机森林的分类器实现待测试游戏特征序列的识别。
本发明的实施例还提供一种用于防沉迷系统的基于随机森林的自训练学习系统,如图3和图5所示,所述用于防沉迷系统的基于随机森林的自训练学习系统100包括:PCA训练模块110,识别模块120,测试模块130以及特征提取模块140。
于本实施例中,所述特征提取模块140用于对输入的游戏序列数据进行提取,分别获取所述已标记的游戏特征序列和所述未标记的游戏特征序列。
其中,所述游戏序列数据的游戏特征至少包括游戏时间和游戏金额。
假设D_L(x_1,x_2,…,x_|L|)表示标记的游戏序列数据集,大小为|L|;D_U(x_(|L|+1),x_(|L|+2),…,x_(|L|+|U|))表示未标记的游戏序列数据集,大小为|U|。y_i表示x_i的标记,(共有n类)。根据半监督的思想可以得到,初始时的|L|远小于|U|。
根据已知的PCA主成分分析的训练思想,可以利用D_L来计算游戏特征转换矩阵E,其中的游戏特征包括游戏时间、游戏金额等,然后将D_L中的所有游戏数据都投影到该特征空间中。投影结束后,可以根据下面的两个公式获得每个游戏序列对应的特征。
对于每个游戏序列数据,利用下面的公式可以计算其对应的序列值在特征空间中的投影质心Ci:
设投影质心Ci对应的单位向量为vi,则vi就是该游戏序列数据的特征。
于本实施例中,所述PCA训练模块110用于对至少一个已标记的游戏特征序列进行PCA训练获得游戏特征序列训练集。
于本实施例中,所述识别模块120用于基于随机森林的分类器对未标记的游戏特征序列进行识别,将置信度最高的未标记的游戏特征序列添加到所述游戏特征序列训练集;所述训练集模块重新对所述游戏特征序列训练集的数据进行PCA训练,直至达到预设循环次数或所述游戏特征序列训练集不再增大。
于本实施例中,所述随机森林的分类器的一种形式为:
C(t)=RandomForest(DL,DecisionTree,N);
其中,C(t)为分类器的输出分类结果,DL为标记的游戏特征序列训练集,DecisionTree为子决策树,N为子决策树的个数,RandomForest为随机森林算法。
具体地,于本实施例中,如图4所示,所述识别模块120包括:标记单元121,选取单元122以及添加单元123。
所述标记单元121用于利用随机森林的分类器来计算每个未标记的游戏特征序列的假标记,形成属于某一类的假标记集。
将DU中的所有游戏序列数据都投影到这个特征空间上,然后使用基于随机森林的分类器来计算每个未标记的游戏数据的假标记。假设属于第i类的假标记集为Pi(i=1,2,...,c),Pi包含了所有属于第i类的未标记游戏序列。
所述选取单元122用于从所述假标记集中选取一个与所述某一类同类的有标记的游戏特征序列距离最近的未标记的游戏特征序列。
对每一类来说(以第i类为例),从Pi中选出一个与属于类i的所有标记游戏序列距离最近的未标记游戏序列(记作xi),并将其添加到该类中,使其成为真正有标记的游戏序列。更新有标记的游戏序列集DL(DL=DL+xi),并将ui移出DU(DU=DU-xi)。
所述添加单元123用于将该距离最近的所述未标记的游戏特征序列添加到所述游戏特征序列训练集。
于本实施例中,所述测试模块130用于利用所述游戏特征序列训练集对输入的测试游戏特征序列进行识别。
提取所需要游戏特征序列数据,其中的游戏特征包括游戏时间、游戏金额等,然后投影到最终的特征空间,并利用基于随机森林的分类器实现待测试游戏特征序列的识别。
综上所述,本发明提供的基于随机森林的自学习方法,用于解决防沉迷系统中大量游戏序列数据无标记的问题,通过利用大量的未标记游戏序列数据和少量的标记游戏序列数据共同构建更好的分类器;本发明采用训练和测试两个阶段来优化分类器;本发明引入了信息量和正则化的概念,使得未标记数据的选取更加准确;本发明具有极强的普遍适用性。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中包括通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (10)
1.一种用于防沉迷系统的基于随机森林的自训练学习方法,其特征在于,所述用于防沉迷系统的基于随机森林的自训练学习方法包括:
对至少一个已标记的游戏特征序列进行PCA训练获得游戏特征序列训练集;
基于随机森林的分类器对未标记的游戏特征序列进行识别,将置信度最高的未标记的游戏特征序列添加到所述游戏特征序列训练集;
重新对所述游戏特征序列训练集的数据进行PCA训练,直至达到预设循环次数或所述游戏特征序列训练集不再增大;
利用所述游戏特征序列训练集对输入的测试游戏特征序列进行识别。
2.根据权利要求1所述的用于防沉迷系统的基于随机森林的自训练学习方法,其特征在于,所述用于防沉迷系统的基于随机森林的自训练学习方法还包括:
对输入的游戏序列数据进行提取,分别获取所述已标记的游戏特征序列和所述未标记的游戏特征序列。
3.根据权利要求1或2所述的用于防沉迷系统的基于随机森林的自训练学习方法,其特征在于,所述游戏序列数据的游戏特征至少包括游戏时间和游戏金额。
4.根据权利要求1所述的用于防沉迷系统的基于随机森林的自训练学习方法,其特征在于,所述基于随机森林的分类器对未标记的游戏特征序列进行识别,将置信度最高的未标记的游戏特征序列添加到所述游戏特征序列训练集的一种实现方式包括:
利用随机森林的分类器来计算每个未标记的游戏特征序列的假标记,形成属于某一类的假标记集;
从所述假标记集中选取一个与所述某一类同类的有标记的游戏特征序列距离最近的未标记的游戏特征序列;
将该距离最近的所述未标记的游戏特征序列添加到所述游戏特征序列训练集。
5.根据权利要求1所述的用于防沉迷系统的基于随机森林的自训练学习方法,其特征在于,所述随机森林的分类器的一种形式为:
C(t)=RandomForest(DL,DecisionTree,N);
其中,C(t)为分类器的输出分类结果,DL为标记的游戏特征序列训练集,DecisionTree为子决策树,N为子决策树的个数,RandomForest为随机森林算法。
6.一种用于防沉迷系统的基于随机森林的自训练学习系统,其特征在于,所述用于防沉迷系统的基于随机森林的自训练学习系统包括:
PCA训练模块,用于对至少一个已标记的游戏特征序列进行PCA训练获得游戏特征序列训练集;
识别模块,用于基于随机森林的分类器对未标记的游戏特征序列进行识别,将置信度最高的未标记的游戏特征序列添加到所述游戏特征序列训练集;所述训练集模块重新对所述游戏特征序列训练集的数据进行PCA训练,直至达到预设循环次数或所述游戏特征序列训练集不再增大;
测试模块,用于利用所述游戏特征序列训练集对输入的测试游戏特征序列进行识别。
7.根据权利要求6所述的用于防沉迷系统的基于随机森林的自训练学习系统,其特征在于,所述用于防沉迷系统的基于随机森林的自训练学习系统还包括:
特征提取模块,用于对输入的游戏序列数据进行提取,分别获取所述已标记的游戏特征序列和所述未标记的游戏特征序列。
8.根据权利要求6或7所述的用于防沉迷系统的基于随机森林的自训练学习系统,其特征在于,所述游戏序列数据的游戏特征至少包括游戏时间和游戏金额。
9.根据权利要求6所述的用于防沉迷系统的基于随机森林的自训练学习系统,其特征在于,所述识别模块包括:
标记单元,用于利用随机森林的分类器来计算每个未标记的游戏特征序列的假标记,形成属于某一类的假标记集;
选取单元,用于从所述假标记集中选取一个与所述某一类同类的有标记的游戏特征序列距离最近的未标记的游戏特征序列;
添加单元,用于将该距离最近的所述未标记的游戏特征序列添加到所述游戏特征序列训练集。
10.根据权利要求6所述的用于防沉迷系统的基于随机森林的自训练学习系统,其特征在于:所述随机森林的分类器的一种形式为:
C(t)=RandomForest(DL,DecisionTree,N);
其中,C(t)为分类器的输出分类结果,DL为标记的游戏特征序列训练集,DecisionTree为子决策树,N为子决策树的个数,RandomForest为随机森林算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810974270.0A CN109284776B (zh) | 2018-08-24 | 2018-08-24 | 用于防沉迷系统的基于随机森林的自训练学习系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810974270.0A CN109284776B (zh) | 2018-08-24 | 2018-08-24 | 用于防沉迷系统的基于随机森林的自训练学习系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109284776A true CN109284776A (zh) | 2019-01-29 |
CN109284776B CN109284776B (zh) | 2022-05-03 |
Family
ID=65183093
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810974270.0A Active CN109284776B (zh) | 2018-08-24 | 2018-08-24 | 用于防沉迷系统的基于随机森林的自训练学习系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109284776B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521290A (zh) * | 2011-11-29 | 2012-06-27 | 中福在线投资有限公司 | 基于移动互联网彩民行为元数据的服务系统 |
CN104202323A (zh) * | 2014-09-05 | 2014-12-10 | 绿网天下(福建)网络科技股份有限公司 | 一种基于移动终端对应用软件的管控方法 |
CN104318242A (zh) * | 2014-10-08 | 2015-01-28 | 中国人民解放军空军工程大学 | 一种高效的svm主动半监督学习算法 |
CN105045916A (zh) * | 2015-08-20 | 2015-11-11 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种手机游戏推荐系统及其推荐方法 |
CN106056134A (zh) * | 2016-05-20 | 2016-10-26 | 重庆大学 | 一种基于Spark的半监督随机森林分类方法 |
US20170228600A1 (en) * | 2014-11-14 | 2017-08-10 | Clipmine, Inc. | Analysis of video game videos for information extraction, content labeling, smart video editing/creation and highlights generation |
CN107395590A (zh) * | 2017-07-19 | 2017-11-24 | 福州大学 | 一种基于pca和随机森林分类的入侵检测方法 |
US20180068656A1 (en) * | 2016-09-02 | 2018-03-08 | Disney Enterprises, Inc. | Classifying Segments of Speech Based on Acoustic Features and Context |
CN107970612A (zh) * | 2016-10-21 | 2018-05-01 | 电子技术公司 | 多玩家视频游戏匹配系统和方法 |
KR20180046431A (ko) * | 2016-10-27 | 2018-05-09 | 가톨릭대학교 산학협력단 | 성인의 인터넷중독 스크리닝을 위한 의사결정나무를 활용한 인터넷 과의존 분류 예측 장치 및 방법 |
CN108228845A (zh) * | 2018-01-09 | 2018-06-29 | 华南理工大学 | 一种手机游戏分类算法 |
CN108364016A (zh) * | 2018-01-12 | 2018-08-03 | 华南理工大学 | 基于多分类器的渐进式半监督分类方法 |
-
2018
- 2018-08-24 CN CN201810974270.0A patent/CN109284776B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521290A (zh) * | 2011-11-29 | 2012-06-27 | 中福在线投资有限公司 | 基于移动互联网彩民行为元数据的服务系统 |
CN104202323A (zh) * | 2014-09-05 | 2014-12-10 | 绿网天下(福建)网络科技股份有限公司 | 一种基于移动终端对应用软件的管控方法 |
CN104318242A (zh) * | 2014-10-08 | 2015-01-28 | 中国人民解放军空军工程大学 | 一种高效的svm主动半监督学习算法 |
US20170228600A1 (en) * | 2014-11-14 | 2017-08-10 | Clipmine, Inc. | Analysis of video game videos for information extraction, content labeling, smart video editing/creation and highlights generation |
CN105045916A (zh) * | 2015-08-20 | 2015-11-11 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种手机游戏推荐系统及其推荐方法 |
CN106056134A (zh) * | 2016-05-20 | 2016-10-26 | 重庆大学 | 一种基于Spark的半监督随机森林分类方法 |
US20180068656A1 (en) * | 2016-09-02 | 2018-03-08 | Disney Enterprises, Inc. | Classifying Segments of Speech Based on Acoustic Features and Context |
CN107970612A (zh) * | 2016-10-21 | 2018-05-01 | 电子技术公司 | 多玩家视频游戏匹配系统和方法 |
KR20180046431A (ko) * | 2016-10-27 | 2018-05-09 | 가톨릭대학교 산학협력단 | 성인의 인터넷중독 스크리닝을 위한 의사결정나무를 활용한 인터넷 과의존 분류 예측 장치 및 방법 |
CN107395590A (zh) * | 2017-07-19 | 2017-11-24 | 福州大学 | 一种基于pca和随机森林分类的入侵检测方法 |
CN108228845A (zh) * | 2018-01-09 | 2018-06-29 | 华南理工大学 | 一种手机游戏分类算法 |
CN108364016A (zh) * | 2018-01-12 | 2018-08-03 | 华南理工大学 | 基于多分类器的渐进式半监督分类方法 |
Non-Patent Citations (3)
Title |
---|
ZAHEER HUSSAIN 等: "Online gaming addiction: Classification, prediction and associated risk factors", 《ADDICTION RESEARCH AND THEORY》 * |
张锐 等: "防沉迷系统和网络游戏运营", 《信息科技(学术研究)》 * |
毕夏安 等: "一种高效的游戏流量识别与分类技术", 《计算机工程与应用》 * |
Also Published As
Publication number | Publication date |
---|---|
CN109284776B (zh) | 2022-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104573359B (zh) | 一种基于任务难度与标注者能力的众包标注数据整合方法 | |
Yadav et al. | Data mining: A prediction for performance improvement of engineering students using classification | |
Freebairn et al. | Reflections on collectively working toward sustainability: indicators for indicators! | |
CN112150478A (zh) | 一种构建半监督图像分割框架的方法及系统 | |
Shaffer | Q-squared: Combining qualitative and quantitative approaches in poverty analysis | |
CN104091206B (zh) | 基于演化博弈论的社交网络信息传播预测方法 | |
CN109344759A (zh) | 一种基于角度损失神经网络的亲属识别方法 | |
CN109886155A (zh) | 基于深度学习的单株水稻检测定位方法、系统、设备及介质 | |
CN108334575A (zh) | 一种推荐结果排序修正方法及装置,电子设备 | |
CN101447020A (zh) | 基于直觉模糊的色情图像识别方法 | |
CN104809469A (zh) | 一种面向服务机器人的室内场景图像分类方法 | |
Hafezi et al. | Identification of representative patterns of time use activity through fuzzy C-means clustering | |
CN103279944A (zh) | 一种基于生物地理优化的图像分割方法 | |
Rama et al. | A study on causal rule discovery with PC algorithm | |
CN103793054B (zh) | 一种模拟陈述性记忆过程的动作识别方法 | |
CN107480194A (zh) | 多模态知识表示自动学习模型的构建方法及系统 | |
CN111626781A (zh) | 基于人工智能的广告投放方法 | |
Kim et al. | Activity recognition for a smartphone and web-based human mobility sensing system | |
CN109670596A (zh) | 非完全信息环境下的博弈决策方法、系统和智能体 | |
Sharaunga et al. | Dimensions of Empowerment Influencing Women in KwaZulu-Natal to diversify away from agricultural-based livelihoods | |
Guo et al. | WeedNet-R: a sugar beet field weed detection algorithm based on enhanced RetinaNet and context semantic fusion | |
CN114463848A (zh) | 一种基于记忆增强的渐进式学习步态识别方法 | |
CN106056167A (zh) | 一种基于高斯核混合人工蜂群算法的归一化可能性模糊熵聚类方法 | |
CN113392934A (zh) | 一种面向深度学习的偏见数据平衡方法及装置 | |
Wang et al. | Multi-information model for Large-flowered chrysanthemum cultivar recognition and classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |