CN111428808A

CN111428808A - 一种利用随机森林进行业务分类的方法

Info

Publication number: CN111428808A
Application number: CN202010269379.1A
Authority: CN
Inventors: 韩周安; 尹森林
Original assignee: Chengdu Acti Technology & Development Co ltd
Current assignee: Chengdu Acti Technology & Development Co ltd
Priority date: 2020-04-08
Filing date: 2020-04-08
Publication date: 2020-07-17

Abstract

本发明公开了一种利用随机森林进行业务分类的方法，包括以下步骤：S1.收集M个业务集及其所具有的参数集；S2.设置需要的分类参数集,共i个；S3.通过袋装算法Bagging生成k个样本业务集；S4.通过k个样本业务集，产生k个分类树，并通过基尼指数对业务集进行划分，将具有最小基尼指标的参数作为该节点的分裂指标。本发明通过随机森林算法，采用袋装算法实现样本集随机抽取；产生可以对业务集大且分类参数较多的分类与预测，并实现叶子结点纯度达到最大。

Description

一种利用随机森林进行业务分类的方法

技术领域

本发明涉及计算机领域，尤其涉及一种利用随机森林进行业务分类的方法。

背景技术

分类树是决策树(Decision tree)的分类方法的一种，通过构建二叉树方法进行目的预测，也称分类决策树。分类树采用自顶向下的递归方法，根据信息的特征差异进行分裂，直至每个叶子纯度达到最大。

目前分类树大部分用于对业务集进行分类，通过Bagging算法，对业务集进行多轮训练，提高分类的稳定性，再通过采用投票的方式，对测试样本类别进行预测。但是这种传统利用分类树对业务进行分类的方法，往往会因为样本类别过多，导致出现分类错误的情况。

现有技术中存在以下缺陷：

(1)对于业务集数量较大的系统，往往会出现无法实现准确、合理、深层次分类；

(2)部分分类树没有采用袋装算法，导致样本集不是通过随机抽取的方式产生的；

(3)对于参数较多的分类时，往往会出现分类错误。

发明内容

本发明的目的在于，针对上述问题，提出一种利用随机森林进行业务分类的方法。

本发明的发明目的是通过以下技术方案实现的：一种利用随机森林进行业务分类的方法，包括以下步骤：

S1.收集M个业务集及其所具有的参数集{g_i，i＝1,2,……n}；

S2.设置需要的分类参数集{h_i，i＝1,2,……n}，共i个；并设置分类参数；

S3.通过袋装算法Bagging生成k个样本业务集；

S4.构建分类树。

其中，所述的步骤S2的分类参数，通过业务具有的特征进行设置；

所述的步骤S3，包括以下子步骤：

S301.设定所需生成的样本业务集数量k个；

S302.从M个业务集中独立地、随机地、有放回地抽取m个数据，形成一个新的样本业务集；

S303.重复步骤S301，产生多个独立的样本业务集；直至生成k个样本业务集。所述的步骤S4，一个样本业务集用于构建一颗分类树，k个样本业务集则产生k个分类树，包括以下子步骤：

S401.在分类树的每个内部节点处从{h_i，i＝1,2,……n}分类参数集中随机挑选mtry个参数作为候选参数(mtry<<n)；

S402.按照节点不纯度最小的原则从步骤S401所述的mtry个候选参数中选择一个最优参数对节点进行分裂生长；

S403.通过每棵分类树充分生长直到每个叶子节点的不纯度达到最小。所述的最优参数，通过基尼指数进行选择，具体为：

基尼指标的定义如下：

其中的是

参数j在节点处t的概率；

当在业务集划分为m个部分时的基尼指数为：

其中，m是子节点的数目，n_i是子节点i处的样本数，n是母节点处的样本数；

通过计算，将具有最小基尼指标的参数作为该节点的分裂指标。所述的候选的数量mtry不能大于母节点处的样本数n。

1.当构建分类树结束后，还包括步骤S5，通过多个分类树的分类器，对下一时刻的业务进行预测，下一时刻的业务通过每个分类树分类器的投票结果的简单多数投票法决定，具体为：

通过分类树分类，每棵分类树的最后一个节点都包含有之前分类时的参数信息；可定义n棵分类树中的第j棵分类树为h_j(j＝1,2,3...n)，下一时刻的业务分类为c的概率为

采用多数投票法确定类别c←arg maxP(c|x)，得出下一时刻的业务，信道通过该预测结果进行划分。

本发明的有益效果：通过一种利用随机森林进行业务分类的方法，可以对业务集大且分类参数较多的分类与预测，并实现叶子结点纯度达到最大。

附图说明

图1为本发明的方法流程框图；

图2为本发明的步骤S3的方法流程框图；

图3为本发明的步骤S4的方法流程框图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，先对照附图说明本发明的具体实施方式。

本实施例的具体实施方法及原理如下：

一种利用随机森林进行业务分类的方法，如图1所述，包括以下步骤：

S1.收集M个业务集及其所具有的参数集{g_i，i＝1,2,……n}；

S3.通过袋装算法Bagging生成k个样本业务集；

S4.构建分类树。

所述的步骤S3，如图2所示，包括以下子步骤：

S301.设定所需生成的样本业务集数量k个；

S303.重复步骤S301，产生多个独立的样本业务集；直至生成k个样本业务集。

所述的步骤S4，一个样本业务集用于构建一颗分类树，k个样本业务集则产生k个分类树，如图3所示，包括以下子步骤：

基尼指标的定义如下：

其中的是

参数j在节点处t的概率；

当在业务集划分为m个部分时的基尼指数为：

2.当构建分类树结束后，还包括步骤S5，通过多个分类树的分类器，对下一时刻的业务进行预测，下一时刻的业务通过每个分类树分类器的投票结果的简单多数投票法决定，具体为：

本实施例具体为一个大型餐厅的订餐系统，由于订餐系统的业务数量较多，所以采用本方案的分类树进行业务分类的方法，具体原理流程如下：

(1)收集当前时刻的业务集，共有M个业务，餐厅收集其所负责订餐区域内业务集及其所具有的参数集{g_i，i＝1,2,……n}。

(2)设置需要的分类参数集{h_i，i＝1,2,……n}，共i个；分类参数设置为订餐距离、订餐数量、订餐价格、订餐时间等。

(3)假设要构建的样本业务集大小为k。在当前时刻业务集，即M个业务中通过袋装算法Bagging生成k个样本业务集，具体为：

从M个业务集中独立地、随机地、有放回地抽取m个数据(m<M)，形成一个样本业务集；

重复上述过程，产生多个独立的样本业务集；

直至生成完k个样本业务集。

(4)一个样本业务集用于构建一颗分类树，k个样本业务集则产生k个分类树，有i个分类参数，则单棵分类树的生长过程如下：在分类树的每个内部节点处从{h_i，i＝1,2,……n}分类参数集中随机挑选mtry个参数作为候选参数(mtry<<n)，按照节点不纯度最小的原则从这mtry个候选参数中选择一个最优参数对节点进行分裂生长；最优参数的选择通过基尼指数来衡量，基尼指标的定义如下：

其中的

是参数j在节点处t的概率；在业务集划分为m个部分时的Gini指数为：

m是子节点的数目，n_i是子节点处的样本数，n是母节点处的样本数；具有最小Gini指标的参数作为该节点的分裂指标；让每棵分类树充分生长直到每个叶子节点的不纯度达到最小。

(5)当构建分类树结束后，还包括步骤S5，通过多个分类树的分类器，对下一时刻的业务进行预测，下一时刻的业务通过每个分类树分类器的投票结果的简单多数投票法决定，具体为：

(6)通过分类树分类，每棵分类树的最后一个节点都包含有之前分类时的参数信息；可定义n棵分类树中的第j棵分类树为，下一时刻的业务分类为c的概率为，采用多数投票法确定类别c←arg maxP(c|x)，得出下一时刻的业务，信道通过该预测结果进行划分。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。