发明内容
基于此,有必要针对上述技术问题,提供一种能够高效挖掘数据的数据推荐模型的生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,提高了数据挖掘的效率。
一种数据推荐模型的生成方法,所述方法包括:
获取对象集合对应的行为历史数据,将所述行为历史数据随机分配为训练集和验证集;
获取随机森林模型的超参数;
随机可重复的抽取所述训练集中的训练数据,组成与所述训练集大小一致的样本集,所述样本集的数目与超参数中设定的决策树数目相同;
基于超参数和各个所述样本集构建对应的决策树,获取决策树结果依据条件,所述决策树结果依据条件用于根据各个所述决策树对应的分类结果,选出随机森林模型的目标分类结果,基于所述各个决策树和决策树结果依据条件构建当前随机森林模型;
基于验证集对当前随机森林模型进行评估,得到当前随机森林模型的评价指标;
重复获取更新的随机森林模型的超参数,进入随机可重复的抽取所述训练集中的训练数据,组成与所述训练集大小一致的样本集的步骤,直到获得满足预设条件的至少两个随机森林模型,选取各个所述至少两个随机森林模型对应的评价指标中评价指标最大的随机森林模型作为目标随机森林模型。
在其中一个实施例中,获取对象集合对应的行为历史数据,将所述行为历史数据随机分配为训练集和验证集之前,还包括:
获取所述对象集合对应的初始行为历史数据,对所述初始行为历史数据进行清理和处理,估计和剔除有缺失值的初始行为历史数据,得到第一行为历史数据;
对所述第一行为历史数据进行描述性统计分析,得到所述第一行为历史数据中存在的极端异常值,对所述极端异常值进行处理,得到所述行为历史数据。
在其中一个实施例中,对所述第一行为历史数据进行描述性统计分析,得到所述第一行为历史数据中存在的极端异常值,对所述极端异常值进行处理,得到所述行为历史数据包括:
删除所述第一行为历史数据中存在的极端异常值;
获取极端异常值对应的填补值,用所述填补值填补所述删除的极端异常值,所述填补值的获取方式包括以下中的一种:
获取极端异常值的前项观测值和后项观测值,计算所述前项观测值和后项观测值的平均值,所述平均值用于填补所述删除的极端异常值,将填补后的第一行为历史数据作为所述行为历史数据;
获取第一行为历史数据之间的依赖关系,基于所述依赖关系获得极端异常值对应的更新数值,将所述更新数值填补到所述删除的极端异常值,将填补后的第一行为历史数据作为所述行为历史数据。
在其中一个实施例中,所述超参数包括决策树数目、决策树最大深度、分割内部节点的最小样本数量、袋外分数、并行运行工作数量和分类结果权值,所述决策树数目用于限定一个随机森林模型中存在的决策树数量,所述决策树最大深度用于限定决策树的层数,所述分割内部节点的最小样本数量用于限定决策树分支节点所需的最少样本数量,所述袋外分数用于表示是否使用袋外样本来估计随机森林模型的准确率,所述并行运行工作数量用于表示随机森林模型拟合和预测过程中并行运行的工作数量,所述分类结果权值用于限定分类结果的权重;
在其中一个实施例中,基于超参数和各个所述样本集构建对应的决策树包括:
从各个所述样本集中依次选取一个样本集,选取的样本集作为构建决策树的输入数据;
获取预设数目和待选数量特征;
从待选数量特征中随机不重复地抽取预设数目的目标数量特征,计算各个所述目标数量特征所对应的决策树分支标准值;
基于各个所述目标数量特征所对应的决策树分支标准值的对比结果,选择所述目标数量特征中最具分类能力的数据特征作为根节点的划分特征,基于根节点的划分特征对所述输入数据进行分支操作,生成新的分支节点,且各个分支节点中均含有所述输入数据中的样本;
筛选出各个分支节点中样本数大于或等于最小样本数量的分支节点作为划分节点,所述最小样本数量是所述超参数中的分割内部节点的最小样本数量,对所述划分节点中的每一个节点都从待选数量特征中随机不重复地选取预设数目的目标数量特征,计算各个所述目标数量特征所对应的决策树分支标准值;
基于各个所述目标数量特征所对应的决策树分支标准值的对比结果,选择所述目标数量特征中最具分类能力的数据特征作为所述划分节点中对应划分节点的划分特征,基于各个划分节点的划分特征对对应划分节点中的各个样本进行分支操作,生成新的分支节点,且各个新的分支节点中均含有样本;
重复筛选出各个分支节点中样本数大于或等于最小样本数量的分支节点作为划分节点,所述最小样本数量是所述超参数中的分割内部节点的最小样本数量,对所述划分节点中的每一个节点都从待选数量特征中随机不重复地选取预设数目的目标数量特征,计算各个所述目标数量特征所对应的决策树分支标准值的步骤,直到各个节点中的每个样本都有明确的类别,构建完成一颗决策树;
重复从各个所述样本集中依次选取一个样本集,所述样本集作为构建决策树的输入数据的步骤,直到所述各个所述样本集都构建完成对应的决策树,得到目标决策树,所述目标决策树的数目等于所述超参数中的决策树数目。
在其中一个实施例中,获取决策树结果依据条件,所述决策树结果依据条件用于根据各个所述决策树对应的分类结果,选出随机森林模型的目标分类结果包括:
当所述决策树结果依据条件为众数时,计算各个所述决策树对应的分类结果的结果类别个数,选择各个所述结果类别个数中结果类别个数最大的一类结果作为随机森林模型的目标分类结果;
当所述决策树结果依据条件为最大资源利用率时,计算各个所述决策树对应的分类结果的资源利用率,选择各个所述资源利用率中资源利用率最大的一类结果作为随机森林模型的目标分类结果;
当所述决策树结果依据条件为利用资源的最小时间时,计算各个所述决策树对应的分类结果的利用资源时长,选择各个所述利用资源时长中利用资源时长最小的一类结果作为随机森林模型的目标分类结果。
在其中一个实施例中,基于验证集对当前随机森林模型进行评估,得到当前随机森林模型的评价指标包括:
计算所述随机森林模型的查准率和查全率;
基于所述查准率和查全率,计算所述随机森林模型的目标分数,将所述目标分数作为所述随机森林模型的评价指标。
在一个实施例中,重复获取更新的随机森林模型的超参数,进入随机可重复的抽取所述训练集中的训练数据,组成与所述训练集大小一致的样本集的步骤,直到获得满足预设条件的至少两个随机森林模型,选取各个所述至少两个随机森林模型对应的评价指标中评价指标最大的随机森林模型作为目标随机森林模型之后,还包括:
获得预设筛选数目,基于目标随机森林模型计算各个数量特征的特征重要性指标,对各个所述特征重要性指标进行从大到小的排序,依次从排序好的数据特征中筛选出目标数量特征,所述目标数量特征的数目等于预设筛选数目;
获取目标对象对应的数据信息,从所述数据信息中筛选出与目标数量特征对应的目标数据信息;
获取目标对象对应的决策树结果依据条件,基于所述目标数据信息和决策树结果依据条件,通过所述目标随机森林模型得到目标分类结果;
将所述目标分类结果发送到目标对象对应的终端。
一种数据推荐模型的生成装置,所述装置包括:
行为历史数据处理模块,用于获取对象集合对应的行为历史数据,将所述行为历史数据随机分配为训练集和验证集;
随机森林模型超参数确定模块,用于获取随机森林模型的超参数;
样本集获取模块,用于随机可重复的抽取所述训练集中的训练数据,组成与所述训练集大小一致的样本集,所述样本集的数目与超参数中设定的决策树数目相同;
随机森林模型构建模块,用于基于超参数和各个所述样本集构建对应的决策树,获取决策树结果依据条件,所述决策树结果依据条件用于根据各个所述决策树对应的分类结果,选出随机森林模型的目标分类结果,基于所述各个决策树和决策树结果依据条件构建当前随机森林模型;
随机森林模型评估模块,用于基于验证集对当前随机森林模型进行评估,得到当前随机森林模型的评价指标;
目标随机森林模型获取模块,用于重复获取更新的随机森林模型的超参数,进入随机可重复的抽取所述训练集中的训练数据,组成与所述训练集大小一致的样本集的步骤,直到获得满足预设条件的至少两个随机森林模型,选取各个所述至少两个随机森林模型对应的评价指标中评价指标最大的随机森林模型作为目标随机森林模型。
一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取对象集合对应的行为历史数据,将所述行为历史数据随机分配为训练集和验证集;
获取随机森林模型的超参数;
随机可重复的抽取所述训练集中的训练数据,组成与所述训练集大小一致的样本集,所述样本集的数目与超参数中设定的决策树数目相同;
基于超参数和各个所述样本集构建对应的决策树,获取决策树结果依据条件,所述决策树结果依据条件用于根据各个所述决策树对应的分类结果,选出随机森林模型的目标分类结果,基于所述各个决策树和决策树结果依据条件构建当前随机森林模型;
基于验证集对当前随机森林模型进行评估,得到当前随机森林模型的评价指标;
重复获取更新的随机森林模型的超参数,进入随机可重复的抽取所述训练集中的训练数据,组成与所述训练集大小一致的样本集的步骤,直到获得满足预设条件的至少两个随机森林模型,选取各个所述至少两个随机森林模型对应的评价指标中评价指标最大的随机森林模型作为目标随机森林模型。
一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取对象集合对应的行为历史数据,将所述行为历史数据随机分配为训练集和验证集;
获取随机森林模型的超参数;
随机可重复的抽取所述训练集中的训练数据,组成与所述训练集大小一致的样本集,所述样本集的数目与超参数中设定的决策树数目相同;
基于超参数和各个所述样本集构建对应的决策树,获取决策树结果依据条件,所述决策树结果依据条件用于根据各个所述决策树对应的分类结果,选出随机森林模型的目标分类结果,基于所述各个决策树和决策树结果依据条件构建当前随机森林模型;
基于验证集对当前随机森林模型进行评估,得到当前随机森林模型的评价指标;
重复获取更新的随机森林模型的超参数,进入随机可重复的抽取所述训练集中的训练数据,组成与所述训练集大小一致的样本集的步骤,直到获得满足预设条件的至少两个随机森林模型,选取各个所述至少两个随机森林模型对应的评价指标中评价指标最大的随机森林模型作为目标随机森林模型。
一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取对象集合对应的行为历史数据,将所述行为历史数据随机分配为训练集和验证集;
获取随机森林模型的超参数;
随机可重复的抽取所述训练集中的训练数据,组成与所述训练集大小一致的样本集,所述样本集的数目与超参数中设定的决策树数目相同;
基于超参数和各个所述样本集构建对应的决策树,获取决策树结果依据条件,所述决策树结果依据条件用于根据各个所述决策树对应的分类结果,选出随机森林模型的目标分类结果,基于所述各个决策树和决策树结果依据条件构建当前随机森林模型;
基于验证集对当前随机森林模型进行评估,得到当前随机森林模型的评价指标;
重复获取更新的随机森林模型的超参数,进入随机可重复的抽取所述训练集中的训练数据,组成与所述训练集大小一致的样本集的步骤,直到获得满足预设条件的至少两个随机森林模型,选取各个所述至少两个随机森林模型对应的评价指标中评价指标最大的随机森林模型作为目标随机森林模型。
上述数据推荐模型的生成方法、装置、计算机设备、存储介质和计算机程序产品,通过获取对象集合对应的行为历史数据,将所述行为历史数据随机分配为训练集和验证集,获取随机森林模型的超参数,随机可重复的抽取所述训练集中的训练数据,组成与所述训练集大小一致的样本集,所述样本集的数目与超参数中设定的决策树数目相同,基于超参数和各个所述样本集构建对应的决策树,获取决策树结果依据条件,所述决策树结果依据条件用于根据各个所述决策树对应的分类结果,选出随机森林模型的目标分类结果,基于所述各个决策树和决策树结果依据条件构建当前随机森林模型,基于验证集对当前随机森林模型进行评估,得到当前随机森林模型的评价指标,重复获取更新的随机森林模型的超参数,进入随机可重复的抽取所述训练集中的训练数据,组成与所述训练集大小一致的样本集的步骤,直到获得满足预设条件的至少两个随机森林模型,选取各个所述至少两个随机森林模型对应的评价指标中评价指标最大的随机森林模型作为目标随机森林模型。通过服务器获取对象集合对应的行为历史数据进行训练获得目标随机森林模型,基于目标随机森林模型挖掘出对所述行为历史数据有影响的目标数量特征,根据目标数量特征与目标对象的数据信息获取目标对象对应的目标分类结果,从而提高了数据挖掘的效率。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的数据推荐模型的生成方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。终端102用于获取并展示目标分类结果。服务器104用于获取对象集合对应的行为历史数据,并基于所述行为历史数据训练获得目标随机森林模型,基于目标对象的数据信息通过目标随机森林模型预测目标对象的目标分类结果。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种数据推荐模型的生成方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S200,获取对象集合对应的行为历史数据,将所述行为历史数据随机分配为训练集和验证集。
其中,对象集合是指关于所述方法应用场景下保存于数据库中的各类社会群体的集合。行为历史数据是指各类社会群体在所述方法应用场景下记录的对应数据信息。训练集是用来训练随机森林模型,以确定随机森林模型中的参数,获得损失函数最小拟合效果最佳的随机森林模型的数据集合。验证集是用来评估随机森林模型的拟合效果的数据集合。
具体地,在获取对象集合对应的行为历史数据之前,还需要对对象集合对应的初始行为历史数据进行数据预处理操作,然后将预处理好的行为历史数据按比例分成训练集和验证集,训练集将在后续进程中用于随机森林模型的多次训练中,验证集在后续进程中用于随机森林模型的评估。
步骤S202,获取随机森林模型的超参数。
其中,超参数指在运行机器学习或深度学习算法之前需要指定的参数,超参数包括决策树数目、决策树最大深度、分割内部节点的最小样本数量、袋外分数、并行运行工作数量和分类结果权值,所述决策树数目用于限定一个随机森林模型中存在的决策树数量,所述决策树最大深度用于限定决策树的层数,所述分割内部节点的最小样本数量用于限定决策树分支节点所需的最少样本数量,所述袋外分数用于表示是否使用袋外样本来估计随机森林模型的准确率,所述并行运行工作数量用于表示随机森林模型拟合和预测过程中并行运行的工作数量,所述分类结果权值用于限定分类结果的权重。
具体地,在模型学习训练之前,设定好模型的一些参数,已确保训练得到的各个决策树的对应参数相同,对模型的某些参数限定参数范围,为后续进程做数据准备。
步骤S204,随机可重复的抽取所述训练集中的训练数据,组成与所述训练集大小一致的样本集,所述样本集的数目与超参数中设定的决策树数目相同。
其中,样本集指从训练集中随机有放回抽取的、与训练集大小一致的数据集合,用于构建对应的决策树。决策树是指一种监督学习,所谓监督学习就是给定一堆资源关联特征样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,所述分类器能够对新出现的对象给出正确的分类。分类器是数据挖掘中对样本进行分类的统称,包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法。
具体地,在模型构建之前,需要有对应的数据集,所述方法通过随机重复的从训练集中抽取与训练集大小一致的样本集,作为构建的随机森林模型中一棵决策树对应的数据,为了构建随机森林模型规定的决策树数目,需要在训练集中随机重复的抽取多个样本集,样本集的个数与随机森林模型规定的决策树数目一致。
步骤S206,基于超参数和各个所述样本集构建对应的决策树,获取决策树结果依据条件,所述决策树结果依据条件用于根据各个所述决策树对应的分类结果,选出随机森林模型的目标分类结果,基于所述各个决策树和决策树结果依据条件构建当前随机森林模型。
其中,决策树结果依据条件指在获取各个决策树对应的分类结果时,需要从这些结果中选出一个分类结果作为随机森林模型的最终结果,而选取最终分类结果的判断依据即决策树结果依据条件。目标分类结果指训练得到的当前的随机森林模型的分类结果。当前随机森林模型指训练过程中,正在按照训练当前参数进行训练的随机森林模型。
具体地,构建决策树时,需要对应的样本集以及超参数的限定进行构建。当构建完成超参数规定数据的决策树时,还需要依据最终投票表决决定决策树结果中哪一类结果作为当前随机森林的目标分类结果,所述投票表决即决策树结果依据条件,目标分类结果的获取还需要根据决策树结果依据条件进行相应的计算,然后根据对应的数据选取出最符合的分类结果作为当前随机森林模型的分类结果。其中,随机森林算法示意图如图10所示。
步骤S208,基于验证集对当前随机森林模型进行评估,得到当前随机森林模型的评价指标。
其中,评价指标指评估当前随机森林模型泛化能力的指标,此外还可以依据评价指标对随机森林模型进行优化。
步骤S300,重复获取更新的随机森林模型的超参数,进入随机可重复的抽取所述训练集中的训练数据,组成与所述训练集大小一致的样本集的步骤,直到获得满足预设条件的至少两个随机森林模型,选取各个所述至少两个随机森林模型对应的评价指标中评价指标最大的随机森林模型作为目标随机森林模型。
其中,预设条件指基于随机森林模型评价指标的结果,视情况自定义最终需要训练出随机森林模型的个数。目标随机森林模型指训练获得的损失函数最小、泛化能力最好和拟合效果最佳的随机森林模型。
具体地,为了获得损失函数最小、泛化能力最好和拟合效果最佳的随机森林模型,需要对随机森林模型进行多次训练和优化,多次训练的过程中需要对超参数进行修改,以挖掘获取较好随机森林模型时对应的参数,基于训练得到的随机森林模型可以进行参数调优,获得最佳的参数组合,基于所述最优参数组合继续进行模型评估,获取拟合效果更好的随机森林模型。
上述数据推荐模型的生成方法中,通过获取对象集合对应的行为历史数据,将所述行为历史数据随机分配为训练集和验证集,获取随机森林模型的超参数,随机可重复的抽取所述训练集中的训练数据,组成与所述训练集大小一致的样本集,所述样本集的数目与超参数中设定的决策树数目相同,基于超参数和各个所述样本集构建对应的决策树,获取决策树结果依据条件,所述决策树结果依据条件用于根据各个所述决策树对应的分类结果,选出随机森林模型的目标分类结果,基于所述各个决策树和决策树结果依据条件构建当前随机森林模型,基于验证集对当前随机森林模型进行评估,得到当前随机森林模型的评价指标,重复获取更新的随机森林模型的超参数,进入随机可重复的抽取所述训练集中的训练数据,组成与所述训练集大小一致的样本集的步骤,直到获得满足预设条件的至少两个随机森林模型,选取各个所述至少两个随机森林模型对应的评价指标中评价指标最大的随机森林模型作为目标随机森林模型。通过服务器获取对象集合对应的行为历史数据进行训练获得目标随机森林模型,基于目标随机森林模型挖掘出对所述行为历史数据有影响的目标数量特征,根据目标数量特征与目标对象的数据信息获取目标对象对应的目标分类结果,从而提高了数据挖掘的效率。
在一个实施例中,如图3所示,步骤S200之前,还包括:
步骤S302,获取所述对象集合对应的初始行为历史数据,对所述初始行为历史数据进行清理和处理,估计和剔除有缺失值的初始行为历史数据,得到第一行为历史数据。
其中,初始行为历史数据指还没有对存储在数据库中对象集合对应的数据信息进行任何改动的数据。第一行为历史数据指对初始历史数据进行估计和剔除操作之后得到的数据。
具体地,收集的数据可能会因为收集数据的对象不愿被收集敏感信息、收集数据的属性不适用于某些对象群体等原因而造成数据缺失的情况。对于缺失的数据可以根据数据之间的关系去估计缺失值或者直接剔除掉缺失的记录,以提高后续进程中每个决策树模型的分类性能。
步骤S304,对所述第一行为历史数据进行描述性统计分析,得到所述第一行为历史数据中存在的极端异常值,对所述极端异常值进行处理,得到所述行为历史数据。
其中,描述性统计分析指运用制表和分类,图形以及计算概括性数据来描述数据特征的各项活动。极端异常值指第一行为历史数据中偏差较大的数据值。
具体地,除了对数据缺失值进行处理外,还需对处理好缺失值后的数据继续挖掘存在的异常值,以减少异常值对后续进程的影响。
本实施例中,通过对初始行为历史数据进行预处理得到对象集合对应的行为历史数据,使得所述行为历史数据样本量可以处在较为合理的范围内,不至于因为样本量过小而造成过拟合的问题,此外也更易于对行为历史数据进行推断性统计分析,通过各特征值之间的相关性矩阵图分析各特征值之间的相关性,从而提高后续决策树的分类性能,使得学习训练随机森林模型时对数据挖掘的效率得到提高。
在一个实施例中,如图4所示,步骤S304包括:
步骤S400,删除所述第一行为历史数据中存在的极端异常值。
步骤S402,获取极端异常值对应的填补值,用所述填补值填补所述删除的极端异常值,所述填补值的获取方式包括以下中的一种:
获取极端异常值的前项观测值和后项观测值,计算所述前项观测值和后项观测值的平均值,所述平均值用于填补所述删除的极端异常值,将填补后的第一行为历史数据作为所述行为历史数据;
获取第一行为历史数据之间的依赖关系,基于所述依赖关系获得极端异常值对应的更新数值,将所述更新数值填补到所述删除的极端异常值,将填补后的第一行为历史数据作为所述行为历史数据。
其中,填补值指用于填补删除极端异常值所在位置的数据值。前项观测值指极端异常值所在位置前一项的数据值。后项观测值指极端异常值所在位置后一项的数据值。依赖关系指第一行为历史数据中存在的变量之间一一对应的确定性的数量依存关系。
具体地,在删除掉第一历史数据中存在的极端异常值之后,为了避免因为数据的删除导致样本量不足从而影响随机森林模型的分类性能的情况,还需要通过填补值对删除掉的数据进行填补。此外,为了对后续获得目标随机森林模型时计算获得对随机森林模型影响较大的数量特征进行预测和匹配,以分析出所述数量特征与预测数量特征是否一致,达到双重保证的目的,在对行为历史数据学习训练之前,也对行为历史数据进行推断性统计分析,得到各特征值之间的相关性矩阵图,通过所述相关性矩阵图分析各特征之间的相关性,从而根据所述相关性得到所述预测数量特征。
本实施例采用计算所得的填补值在删除的极端异常值所在位置进行数据的填补,有利于保持样本数量的充足性以及提高了后续决策树分类的性能。
在一个实施例中,如图5所示,步骤S206中基于超参数和各个所述样本集构建对应的决策树包括:
步骤S500,从各个所述样本集中依次选取一个样本集,选取的样本集作为构建决策树的输入数据;
步骤S502,获取预设数目和待选数量特征;
其中,预设数目指自主设置的一个数值。待选数量特征指数据集中每个样本存在的特征的集合。
具体地,在构建决策树时,要提取训练集中存在的每一个特征,将这些特征的集合作为待选数量特征,预设数目的设置视情况自定义或者将预设数目设置为根号的待选数量特征个数。
步骤S504,从待选数量特征中随机不重复地抽取预设数目的目标数量特征,计算各个所述目标数量特征所对应的决策树分支标准值;
其中,目标数量特征指决策树构建过程中每个节点进行分支时需要依据的数量特征。决策树分支标准值指决策树构建过程中每个节点进行划分时,将节点中的样本划分为类别更明确的特征选择准则,包括信息增益、信息增益比等。
具体地,在确定决策树根节点之前,需要从待选数量特征中选取出预设数目的目标数量特征,并计算各个所述目标数量特征的决策树分支标准值,并对比各个决策树分支标准值,选择最具有分类能力的数量特征,为后续分支操作做准备。
步骤S506,基于各个所述目标数量特征所对应的决策树分支标准值的对比结果,选择所述目标数量特征中最具分类能力的数据特征作为根节点的划分特征,基于根节点的划分特征对所述输入数据进行分支操作,生成新的分支节点,且各个分支节点中均含有所述输入数据中的样本;
其中,划分特征指随机不重复选取出的目标数量特征中最具有分类能力的数量特征,根据该数量特征可以对对应节点上的样本进行更加明确的类别划分。分支操作指将决策树节点中的样本划分为更明确类别的过程。分支节点指由节点分支生成的节点。样本指对象集合中一个对象所对应的数据信息。
具体地,在决策树构建初始阶段,即决策树根节点确定阶段,需要从所述待选数量特征中选取出预设数目的数量特征,从这些特征中选取出最具有分类能力的数量特征作为根节点的划分特征,然后将构建当前决策树的输入数据进行初步划分,使得划分生成的每个节点都有对应的样本。此外已经作为划分特征的数量特征不再参与后续进程中节点进行划分操作时选取划分特征的过程。
步骤S508,筛选出各个分支节点中样本数大于或等于最小样本数量的分支节点作为划分节点,所述最小样本数量是所述超参数中的分割内部节点的最小样本数量,对所述划分节点中的每一个节点都从待选数量特征中随机不重复地选取预设数目的目标数量特征,计算各个所述目标数量特征所对应的决策树分支标准值;
其中,划分节点指节点上的样本数量满足节点再划分条件的节点。
具体地,决策树的构建还需要对节点进行不断的划分,每一个划分节点都要从待选数量特征中随机不重复地选出预设数目的目标数量特征,并且需要计算各个目标数量特征对应的决策树分支标准值,为后续选出各个划分节点中最具有分类能力的数量特征做数据准备。
步骤S600,基于各个所述目标数量特征所对应的决策树分支标准值的对比结果,选择所述目标数量特征中最具分类能力的数据特征作为所述划分节点中对应划分节点的划分特征,基于各个划分节点的划分特征对对应划分节点中的各个样本进行分支操作,生成新的分支节点,且各个新的分支节点中均含有样本;
具体地,根据各个划分节点对应的各个目标数量特征的决策树分支标准值,从中选出对对应划分节点最具有分类能力的数量特征,依据该数量特征对对应节点上的样本进行分类操作,使得样本都有了一个更明确的类别。
步骤S602,重复筛选出各个分支节点中样本数大于或等于最小样本数量的分支节点作为划分节点,所述最小样本数量是所述超参数中的分割内部节点的最小样本数量,对所述划分节点中的每一个节点都从待选数量特征中随机不重复地选取预设数目的目标数量特征,计算各个所述目标数量特征所对应的决策树分支标准值的步骤,直到各个节点中的每个样本都有明确的类别,构建完成一颗决策树;
具体地,决策树构建过程中,对每个划分节点都需要进行目标数量特征的选取以及从目标数量特征中选出最具分类能力的数量特征作为划分特征的操作,直到每个样本都有明确的分类,构建完成一棵决策树,为随机森林模型的构建做准备。
步骤S604,重复从各个所述样本集中依次选取一个样本集,所述样本集作为构建决策树的输入数据的步骤,直到所述各个所述样本集都构建完成对应的决策树,得到目标决策树,所述目标决策树的数目等于所述超参数中的决策树数目。
其中,目标决策树指构建当前随机森林模型所需要的决策树的集合。
具体地,随机森林模型的构建需要多棵决策树的组成,在随机森林模型构建的过程中,要确保每一个样本集都构建有其对应的决策树,使得最终构建的目标决策树的数目等于超参数中的决策树数目。
本实施例中,通过多次随机重复地从训练集中选取出与训练集大小一致的样本集,将各个样本集构建对应的决策树,且在决策树构建过程中,每个划分节点选取划分特征时都是从待选数量特征中随机选取预设数目个数量特征之后,再从中找到最具有分类能力的数量特征的。基于样本的随机选取以及数量特征的随机选取,使得决策树与决策树之间的相关性变低,从而使得构建所得的随机森林模型不容易陷入过拟合以及具有较好的抗噪能力,有利于提升随机森林模型的的泛化性能,使得随机森林模型对数据的挖掘效率有所提高。
在一个实施例中,如图6所示,步骤S206中获取决策树结果依据条件,所述决策树结果依据条件用于根据各个所述决策树对应的分类结果,选出随机森林模型的目标分类结果包括:
步骤S606,当所述决策树结果依据条件为众数时,计算各个所述决策树对应的分类结果的结果类别个数,选择各个所述结果类别个数中结果类别个数最大的一类结果作为随机森林模型的目标分类结果。
其中,众数指各个决策树的分类结果中,出现类别最多的分类结果的个数。
具体地,根据少数服从多数的思想,从各个决策树分类结果中出现类别最多的分类结果作为当前随机森林模型的目标分类结果。
步骤S608,当所述决策树结果依据条件为最大资源利用率时,计算各个所述决策树对应的分类结果的资源利用率,选择各个所述资源利用率中资源利用率最大的一类结果作为随机森林模型的目标分类结果。
其中,最大资源利用率指资源得到最大化利用时的效率。
具体地,为了获得各个决策树分类结果对应的资源利用率的情况,还需要根据对应的分类结果计算出对应的资源利用情况,然后基于各个资源利用情况的对比结果,找出各个资源利用情况中资源利用率最大的分类结果作为当前随机森林模型的目标分类结果。
步骤S700,当所述决策树结果依据条件为利用资源的最小时间时,计算所述决策树对应的分类结果的利用资源时长,选择各个所述利用资源时长中利用资源时长最小的一类结果作为随机森林模型的目标分类结果。
其中,利用资源的最小时间指资源利用的最短耗时。
具体地,为了获得各个决策树分类结果对应的资源利用耗时情况,还需要根据对应的分类结果计算出对应的资源利用耗时情况,然后基于各个资源利用耗时情况的对比结果,找出各个资源利用耗时情况中资源利用耗时最短的分类结果作为当前随机森林模型的目标分类结果。
本实施例中,通过多种决策树结果依据条件获取不同应用场景下随机森林模型的目标分类结果,丰富了应用场景的类型,提高了随机森林模型分类结果类型的多样性。
在一个实施例中,如图7所示,步骤S208包括:
步骤S702,计算所述随机森林模型的查准率和查全率;
其中,查准率也称准确率,指预测结果为真的结果中实际结果为真的占比。查全率指实际结果为真的情况中预测结果为真的占比。
具体地,一般情况下,查准率高,查全率就会偏低,反之亦然。所以为了更好的度量随机森林模型的好坏,需要综合考虑查准率和查全率,为后续计算随机森林模型的评价指标做数据准备。其中在随机森林模型评估过程中,可计算获得混淆矩阵,如图10所示,基于混淆矩阵,查准率(如公式(1))和查全率(如公式(2))的具体计算公式如下所述,此处用P指代查准率,用R指代查全率:
步骤S704,基于所述查准率和查全率,计算所述随机森林模型的目标分数,将所述目标分数作为所述随机森林模型的评价指标。
其中,目标分数是用来衡量随机森林模型精确度的一种指标。
具体地,在确定目标随机森林模型之前,需要对训练所得的每一个随机森林模型的评价指标进行比对,选出目标分数最大的随机森林模型作为目标随机森林模型。其中目标分数的计算公式如公式(3),此处用F指代目标分数:
除了本申请所应用的评价指标外,还可以根据AUC和ROC曲线判定随机森林模型的好坏,其中AUC为ROC曲线下的面积,ROC曲线的众轴是真正例率,此处用TPR指代,横轴是假正例率,此处用FPR指代,其中真正例率的计算公式如公式4所示,假正例率的计算公式如公式5所示,具体公式如下:
在本实施例中,通过混淆矩阵计算查准率和查全率,并将查准率和查全率综合考虑来计算目标分数,使得通过目标分数可以较好的衡量随机森林模型的精确度,从而找出训练所得的随机森林模型中性能最好的目标随机森林模型。
在一个实施例中,如图8所示,步骤S300之后还包括:
步骤S800,获得预设筛选数目,基于目标随机森林模型计算各个数量特征的特征重要性指标,对各个所述特征重要性指标进行从大到小的排序,依次从排序好的数量特征中筛选出目标数量特征,所述目标数量特征的数目等于预设筛选数目。
其中,预设筛选数目指自定义的一个数值。特征重要性指标指用于衡量一个数量特征对目标随机森林模型预测结果的影响程度。目标数量特征指目标对象中筛选出的对目标随机森林模型预测结果有较大影响的数据特征。
具体地,每个数量特征的特征重要性指标计算步骤包括:对于目标随机森林模型中的每一棵决策树,使用相应的袋外数据(也称OOB数据)计算所述决策树对应的袋外数据误差,得到袋外数据误差eerOOB1;随机地对袋外数据所有的样本的各个特征加入噪声干扰,再次计算所述决策树的袋外数据误差,得到袋外数据误差eerOOB2;使用Ntree来指代所述目标随机森林模型中决策树的数目,那么各个数量特征的特征重要性指标就可以依据公式(6)进行计算,公式如下:
其中,袋外数据指每次构建决策树时,通过重复抽样得到一个数据用于训练决策树时,还有大约1/3没有被利用、没有参与到决策树的构建的数据。噪声干扰指通过难以轻易被区分数据并对随机森林模型输出结果产生干扰的操作。袋外数据误差指通过袋外数据对决策树进行性能评估时计算所得的预测错误率。
步骤S802,获取目标对象对应的数据信息,从所述数据信息中筛选出与目标数量特征对应的目标数据信息。
其中,目标对象指已注册的用户,该用户包括新用户和旧用户。目标数据信息指对目标随机森林模型预测结果影响较大的数据特征对应的数据信息。
具体地,要预测目标对象的目标分类结果,只需要通过目标数据信息进行进行预测便好,通过筛选目标数量特征对应的目标数据信息,可以提高预测结果的准确率。
步骤S804,获取目标对象对应的决策树结果依据条件,基于所述目标数据信息和决策树结果依据条件,通过所述目标随机森林模型得到目标分类结果。
其中,决策树结果依据条件指目标对象想要的目标分类结果类型的依据条件。目标分类结果指根据目标对象的目标数据信息预测出来的结果。
步骤S806,将所述目标分类结果发送到目标对象对应的终端。
本实例中,通过获取目标对象中对目标随机森林模型影响较大的数据特征,基于数量特征对应的目标数量信息和目标对象对应的决策树结果依据条件,通过目标随机森林模型预测目标分类结果,可以提高目标随机森林模型的准确率以及提升用户的体验感。
在一个实施例中,除了应用本案所述方法外,还可以采用多元线性回归模型的方法预测对目标分类结果以及对目标分类结果影响较大的数量特征。所述多元线性回归模型是求解相关关系的一种传统线性回归方法,首先在SPSS中进行相关分析,选择具有较强相关关系的自变量进行回归分析;此外,在考虑多重共线性的情况下,将方差膨胀系数VIF>10的、存在共线性问题的变量剔除,最终得出对目标分类结果影响较大的数量特征,并用标准化系数判定各数据特征的影响力。但是多元线性回归模型的拟合精度不如随机森林模型,多元线性回归模型的无法捕捉变量间的非线性关系。
在一个实施例中,将商家收集存储的用户信息作为初始行为历史数据,其中初始行为历史数据包括基本征信数据和消费数据。对初始历史数据进行预处理后,得到各用户的行为历史数据,以用户行为历史数据中的分期数作为标签,用随机森林模型学习训练以划分出每种分期数对应的顾客类型,从而为测试新旧用户(即目标对象)预测一个符合他们还贷能力的分期方案。也就是说,通过行为历史数据学习训练出目标随机森林模型,然后获取目标对象的数据信息,通过目标随机森林模型预测出目标分类结果,并将目标分类结果发送到目标对象对应的终端上。通过用户的数据信息去预测用户很大概率心仪的目标结果,有利于提高用户的体验感,减少了用户因为选择太多而无法做出选择时的焦虑,以及缩短了用户的决策时间。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的数据推荐模型的生成方法的数据推荐模型的生成装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个数据推荐模型的生成装置实施例中的具体限定可以参见上文中对于数据推荐模型的生成方法的限定,在此不再赘述。
在一个实施例中,如图9所示,提供了一种数据推荐模型的生成装置,包括:行为历史数据处理模块900、随机森林模型超参数确定模块902、样本集获取模块904、随机森林模型构建模块906,随机森林模型评估模块908和目标随机森林模型获取模块910,其中:
行为历史数据处理模块900,用于获取对象集合对应的行为历史数据,将所述行为历史数据随机分配为训练集和验证集;
随机森林模型超参数确定模块902,用于获取随机森林模型的超参数;
样本集获取模块904,用于随机可重复的抽取所述训练集中的训练数据,组成与所述训练集大小一致的样本集,所述样本集的数目与超参数中设定的决策树数目相同;
随机森林模型构建模块906,用于基于超参数和各个所述样本集构建对应的决策树,获取决策树结果依据条件,所述决策树结果依据条件用于根据各个所述决策树对应的分类结果,选出随机森林模型的目标分类结果,基于所述各个决策树和决策树结果依据条件构建当前随机森林模型;
随机森林模型评估模块908,用于基于验证集对当前随机森林模型进行评估,得到当前随机森林模型的评价指标;
目标随机森林模型获取模块910,用于重复获取更新的随机森林模型的超参数,进入随机可重复的抽取所述训练集中的训练数据,组成与所述训练集大小一致的样本集的步骤,直到获得满足预设条件的至少两个随机森林模型,选取各个所述至少两个随机森林模型对应的评价指标中评价指标最大的随机森林模型作为目标随机森林模型。
在一个实施例中,行为历史数据处理模块900之前包括:获取所述对象集合对应的初始行为历史数据,对所述初始行为历史数据进行清理和处理,估计和剔除有缺失值的初始行为历史数据,得到第一行为历史数据;对所述第一行为历史数据进行描述性统计分析,得到所述第一行为历史数据中存在的极端异常值,对所述极端异常值进行处理,得到所述行为历史数据。
在一个实施例中,对所述第一行为历史数据进行描述性统计分析,得到所述第一行为历史数据中存在的极端异常值,对所述极端异常值进行处理,得到所述行为历史数据包括:删除所述第一行为历史数据中存在的极端异常值;获取极端异常值对应的填补值,用所述填补值填补所述删除的极端异常值,所述填补值的获取方式包括以下中的一种:获取极端异常值的前项观测值和后项观测值,计算所述前项观测值和后项观测值的平均值,所述平均值用于填补所述删除的极端异常值,将填补后的第一行为历史数据作为所述行为历史数据;获取第一行为历史数据之间的依赖关系,基于所述依赖关系获得极端异常值对应的更新数值,将所述更新数值填补到所述删除的极端异常值,将填补后的第一行为历史数据作为所述行为历史数据。
在一个实施例中,随机森林模型构建模块906包括:
所述基于超参数和各个所述样本集构建对应的决策树包括:
从各个所述样本集中依次选取一个样本集,选取的样本集作为构建决策树的输入数据;
获取预设数目和待选数量特征;
从待选数量特征中随机不重复地抽取预设数目的目标数量特征,计算各个所述目标数量特征所对应的决策树分支标准值;
基于各个所述目标数量特征所对应的决策树分支标准值的对比结果,选择所述目标数量特征中最具分类能力的数据特征作为根节点的划分特征,基于根节点的划分特征对所述输入数据进行分支操作,生成新的分支节点,且各个分支节点中均含有所述输入数据中的样本;
筛选出各个分支节点中样本数大于或等于最小样本数量的分支节点作为划分节点,所述最小样本数量是所述超参数中的分割内部节点的最小样本数量,对所述划分节点中的每一个节点都从待选数量特征中随机不重复地选取预设数目的目标数量特征,计算各个所述目标数量特征所对应的决策树分支标准值;
基于各个所述目标数量特征所对应的决策树分支标准值的对比结果,选择所述目标数量特征中最具分类能力的数据特征作为所述划分节点中对应划分节点的划分特征,基于各个划分节点的划分特征对对应划分节点中的各个样本进行分支操作,生成新的分支节点,且各个新的分支节点中均含有样本;
重复筛选出各个分支节点中样本数大于或等于最小样本数量的分支节点作为划分节点,所述最小样本数量是所述超参数中的分割内部节点的最小样本数量,对所述划分节点中的每一个节点都从待选数量特征中随机不重复地选取预设数目的目标数量特征,计算各个所述目标数量特征所对应的决策树分支标准值的步骤,直到各个节点中的每个样本都有明确的类别,构建完成一颗决策树;
重复从各个所述样本集中依次选取一个样本集,所述样本集作为构建决策树的输入数据的步骤,直到所述各个所述样本集都构建完成对应的决策树,得到目标决策树,所述目标决策树的数目等于所述超参数中的决策树数目。
所述获取决策树结果依据条件,所述决策树结果依据条件用于根据各个所述决策树对应的分类结果,选出随机森林模型的目标分类结果包括:
当所述决策树结果依据条件为众数时,计算各个所述决策树对应的分类结果的结果类别个数,选择各个所述结果类别个数中结果类别个数最大的一类结果作为随机森林模型的目标分类结果;
当所述决策树结果依据条件为最大资源利用率时,计算各个所述决策树对应的分类结果的资源利用率,选择各个所述资源利用率中资源利用率最大的一类结果作为随机森林模型的目标分类结果;
当所述决策树结果依据条件为利用资源的最小时间时,计算各个所述决策树对应的分类结果的利用资源时长,选择各个所述利用资源时长中利用资源时长最小的一类结果作为随机森林模型的目标分类结果。
在一个实施例中,随机森林模型评估模块908包括:计算所述随机森林模型的查准率和查全率;基于所述查准率和查全率,计算所述随机森林模型的目标分数,将所述目标分数作为所述随机森林模型的评价指标。
在一个实施例中,目标随机森林模型获取模块910之后还包括:
获得预设筛选数目,基于目标随机森林模型计算各个数量特征的特征重要性指标,对各个所述特征重要性指标进行从大到小的排序,依次从排序好的数量特征中筛选出目标数量特征,所述目标数量特征的数目等于预设筛选数目;获取目标对象对应的数据信息,从所述数据信息中筛选出与目标数量特征对应的目标数据信息;获取目标对象对应的决策树结果依据条件,基于所述目标数据信息和决策树结果依据条件,通过所述目标随机森林模型得到目标分类结果;将所述目标分类结果发送到目标对象对应的终端。
上述数据推荐模型的生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图12所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储历史行为数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据推荐模型的生成方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图13所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种数据推荐模型的生成方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图12和图13中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。