CN111428808A - 一种利用随机森林进行业务分类的方法 - Google Patents

一种利用随机森林进行业务分类的方法 Download PDF

Info

Publication number
CN111428808A
CN111428808A CN202010269379.1A CN202010269379A CN111428808A CN 111428808 A CN111428808 A CN 111428808A CN 202010269379 A CN202010269379 A CN 202010269379A CN 111428808 A CN111428808 A CN 111428808A
Authority
CN
China
Prior art keywords
classification
node
sets
parameter
traffic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010269379.1A
Other languages
English (en)
Inventor
韩周安
尹森林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Acti Technology & Development Co ltd
Original Assignee
Chengdu Acti Technology & Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Acti Technology & Development Co ltd filed Critical Chengdu Acti Technology & Development Co ltd
Priority to CN202010269379.1A priority Critical patent/CN111428808A/zh
Publication of CN111428808A publication Critical patent/CN111428808A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/12Hotels or restaurants

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Economics (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种利用随机森林进行业务分类的方法,包括以下步骤:S1.收集M个业务集及其所具有的参数集;S2.设置需要的分类参数集,共i个;S3.通过袋装算法Bagging生成k个样本业务集;S4.通过k个样本业务集,产生k个分类树,并通过基尼指数对业务集进行划分,将具有最小基尼指标的参数作为该节点的分裂指标。本发明通过随机森林算法,采用袋装算法实现样本集随机抽取;产生可以对业务集大且分类参数较多的分类与预测,并实现叶子结点纯度达到最大。

Description

一种利用随机森林进行业务分类的方法
技术领域
本发明涉及计算机领域,尤其涉及一种利用随机森林进行业务分类的方法。
背景技术
分类树是决策树(Decision tree)的分类方法的一种,通过构建二叉树方法进行目的预测,也称分类决策树。分类树采用自顶向下的递归方法,根据信息的特征差异进行分裂,直至每个叶子纯度达到最大。
目前分类树大部分用于对业务集进行分类,通过Bagging算法,对业务集进行多轮训练,提高分类的稳定性,再通过采用投票的方式,对测试样本类别进行预测。但是这种传统利用分类树对业务进行分类的方法,往往会因为样本类别过多,导致出现分类错误的情况。
现有技术中存在以下缺陷:
(1)对于业务集数量较大的系统,往往会出现无法实现准确、合理、深层次分类;
(2)部分分类树没有采用袋装算法,导致样本集不是通过随机抽取的方式产生的;
(3)对于参数较多的分类时,往往会出现分类错误。
发明内容
本发明的目的在于,针对上述问题,提出一种利用随机森林进行业务分类的方法。
本发明的发明目的是通过以下技术方案实现的:一种利用随机森林进行业务分类的方法,包括以下步骤:
S1.收集M个业务集及其所具有的参数集{gi,i=1,2,……n};
S2.设置需要的分类参数集{hi,i=1,2,……n},共i个;并设置分类参数;
S3.通过袋装算法Bagging生成k个样本业务集;
S4.构建分类树。
其中,所述的步骤S2的分类参数,通过业务具有的特征进行设置;
所述的步骤S3,包括以下子步骤:
S301.设定所需生成的样本业务集数量k个;
S302.从M个业务集中独立地、随机地、有放回地抽取m个数据,形成一个新的样本业务集;
S303.重复步骤S301,产生多个独立的样本业务集;直至生成k个样本业务集。所述的步骤S4,一个样本业务集用于构建一颗分类树,k个样本业务集则产生k个分类树,包括以下子步骤:
S401.在分类树的每个内部节点处从{hi,i=1,2,……n}分类参数集中随机挑选mtry个参数作为候选参数(mtry<<n);
S402.按照节点不纯度最小的原则从步骤S401所述的mtry个候选参数中选择一个最优参数对节点进行分裂生长;
S403.通过每棵分类树充分生长直到每个叶子节点的不纯度达到最小。所述的最优参数,通过基尼指数进行选择,具体为:
基尼指标的定义如下:
Figure BDA0002442533670000031
其中的是
Figure BDA0002442533670000032
参数j在节点处t的概率;
当在业务集划分为m个部分时的基尼指数为:
Figure BDA0002442533670000033
其中,m是子节点的数目,ni是子节点i处的样本数,n是母节点处的样本数;
通过计算,将具有最小基尼指标的参数作为该节点的分裂指标。所述的候选的数量mtry不能大于母节点处的样本数n。
1.当构建分类树结束后,还包括步骤S5,通过多个分类树的分类器,对下一时刻的业务进行预测,下一时刻的业务通过每个分类树分类器的投票结果的简单多数投票法决定,具体为:
通过分类树分类,每棵分类树的最后一个节点都包含有之前分类时的参数信息;可定义n棵分类树中的第j棵分类树为hj(j=1,2,3...n),下一时刻的业务分类为c的概率为
Figure BDA0002442533670000034
采用多数投票法确定类别c←arg maxP(c|x),得出下一时刻的业务,信道通过该预测结果进行划分。
本发明的有益效果:通过一种利用随机森林进行业务分类的方法,可以对业务集大且分类参数较多的分类与预测,并实现叶子结点纯度达到最大。
附图说明
图1为本发明的方法流程框图;
图2为本发明的步骤S3的方法流程框图;
图3为本发明的步骤S4的方法流程框图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,先对照附图说明本发明的具体实施方式。
本实施例的具体实施方法及原理如下:
一种利用随机森林进行业务分类的方法,如图1所述,包括以下步骤:
S1.收集M个业务集及其所具有的参数集{gi,i=1,2,……n};
S2.设置需要的分类参数集{hi,i=1,2,……n},共i个;并设置分类参数;
S3.通过袋装算法Bagging生成k个样本业务集;
S4.构建分类树。
其中,所述的步骤S2的分类参数,通过业务具有的特征进行设置;
所述的步骤S3,如图2所示,包括以下子步骤:
S301.设定所需生成的样本业务集数量k个;
S302.从M个业务集中独立地、随机地、有放回地抽取m个数据,形成一个新的样本业务集;
S303.重复步骤S301,产生多个独立的样本业务集;直至生成k个样本业务集。
所述的步骤S4,一个样本业务集用于构建一颗分类树,k个样本业务集则产生k个分类树,如图3所示,包括以下子步骤:
S401.在分类树的每个内部节点处从{hi,i=1,2,……n}分类参数集中随机挑选mtry个参数作为候选参数(mtry<<n);
S402.按照节点不纯度最小的原则从步骤S401所述的mtry个候选参数中选择一个最优参数对节点进行分裂生长;
S403.通过每棵分类树充分生长直到每个叶子节点的不纯度达到最小。所述的最优参数,通过基尼指数进行选择,具体为:
基尼指标的定义如下:
Figure BDA0002442533670000051
其中的是
Figure BDA0002442533670000052
参数j在节点处t的概率;
当在业务集划分为m个部分时的基尼指数为:
Figure BDA0002442533670000053
其中,m是子节点的数目,ni是子节点i处的样本数,n是母节点处的样本数;
通过计算,将具有最小基尼指标的参数作为该节点的分裂指标。所述的候选的数量mtry不能大于母节点处的样本数n。
2.当构建分类树结束后,还包括步骤S5,通过多个分类树的分类器,对下一时刻的业务进行预测,下一时刻的业务通过每个分类树分类器的投票结果的简单多数投票法决定,具体为:
通过分类树分类,每棵分类树的最后一个节点都包含有之前分类时的参数信息;可定义n棵分类树中的第j棵分类树为hj(j=1,2,3...n),下一时刻的业务分类为c的概率为
Figure BDA0002442533670000054
采用多数投票法确定类别c←arg maxP(c|x),得出下一时刻的业务,信道通过该预测结果进行划分。
本实施例具体为一个大型餐厅的订餐系统,由于订餐系统的业务数量较多,所以采用本方案的分类树进行业务分类的方法,具体原理流程如下:
(1)收集当前时刻的业务集,共有M个业务,餐厅收集其所负责订餐区域内业务集及其所具有的参数集{gi,i=1,2,……n}。
(2)设置需要的分类参数集{hi,i=1,2,……n},共i个;分类参数设置为订餐距离、订餐数量、订餐价格、订餐时间等。
(3)假设要构建的样本业务集大小为k。在当前时刻业务集,即M个业务中通过袋装算法Bagging生成k个样本业务集,具体为:
从M个业务集中独立地、随机地、有放回地抽取m个数据(m<M),形成一个样本业务集;
重复上述过程,产生多个独立的样本业务集;
直至生成完k个样本业务集。
(4)一个样本业务集用于构建一颗分类树,k个样本业务集则产生k个分类树,有i个分类参数,则单棵分类树的生长过程如下:在分类树的每个内部节点处从{hi,i=1,2,……n}分类参数集中随机挑选mtry个参数作为候选参数(mtry<<n),按照节点不纯度最小的原则从这mtry个候选参数中选择一个最优参数对节点进行分裂生长;最优参数的选择通过基尼指数来衡量,基尼指标的定义如下:
Figure BDA0002442533670000061
其中的
Figure BDA0002442533670000062
是参数j在节点处t的概率;在业务集划分为m个部分时的Gini指数为:
Figure BDA0002442533670000063
m是子节点的数目,ni是子节点处的样本数,n是母节点处的样本数;具有最小Gini指标的参数作为该节点的分裂指标;让每棵分类树充分生长直到每个叶子节点的不纯度达到最小。
(5)当构建分类树结束后,还包括步骤S5,通过多个分类树的分类器,对下一时刻的业务进行预测,下一时刻的业务通过每个分类树分类器的投票结果的简单多数投票法决定,具体为:
(6)通过分类树分类,每棵分类树的最后一个节点都包含有之前分类时的参数信息;可定义n棵分类树中的第j棵分类树为,下一时刻的业务分类为c的概率为,采用多数投票法确定类别c←arg maxP(c|x),得出下一时刻的业务,信道通过该预测结果进行划分。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (8)

1.一种利用随机森林进行业务分类的方法,其特征在于,包括以下步骤:
S1.收集M个业务集及其所具有的参数集{gi,i=1,2,……n};
S2.设置需要的分类参数集{hi,i=1,2,……n},共i个;并设置分类参数;
S3.通过袋装算法Bagging生成k个样本业务集;
S4.通过k个样本业务集,产生k个分类树,并通过基尼指数对业务集进行划分,将具有最小基尼指标的参数作为该节点的分裂指标。
2.根据权利要求1所述的一种利用随机森林进行业务分类的方法,其特征在于,所述的步骤S2的分类参数,通过业务具有的特征进行设置。
3.根据权利要求1所述的一种利用随机森林进行业务分类的方法,其特征在于,所述的步骤S3,包括以下子步骤:
S301.设定所需生成的样本业务集数量k个;
S302.从M个业务集中独立地、随机地、有放回地抽取m个数据,形成一个新的样本业务集;
S303.重复步骤S301,产生多个独立的样本业务集;直至生成k个样本业务集。
4.根据权利要求3所述的一种利用随机森林进行业务分类的方法,其特征在于,所述的抽取的数据数量m小于收集的业务集数量M。
5.根据权利要求1所述的一种利用随机森林进行业务分类的方法,其特征在于,所述的步骤S4,根据k个样本业务集,产生k个分类树,包括以下子步骤:
S401.在分类树的每个内部节点处从{hi,i=1,2,……n}分类参数集中随机挑选mtry个参数作为候选参数;
S402.按照节点不纯度最小的原则从步骤S401所述的mtry个候选参数中选择一个最优参数对节点进行分裂生长;
S403.通过每棵分类树充分生长直到每个叶子节点的不纯度达到最小。
6.根据权利要求5所述的一种利用随机森林进行业务分类的方法,其特征在于,所述的最优参数,通过基尼指数进行选择,具体为:
基尼指标的定义如下:
Figure FDA0002442533660000021
其中
Figure FDA0002442533660000022
表示参数j在节点处t的概率;
当在业务集划分为m个部分时的基尼指数为:
Figure FDA0002442533660000023
其中,m是子节点的数目,ni是子节点i处的样本数,n是母节点处的样本数;
通过计算,将具有最小基尼指标的参数作为该节点的分裂指标。
7.根据权利要求5所述的一种利用随机森林进行业务分类的方法,其特征在于,所述的候选的数量mtry不能大于母节点处的样本数n。
8.根据权利要求1所述的一种利用随机森林进行业务分类的方法,其特征在于,所述的步骤S4,当构建分类树结束后,还包括步骤S5,通过多个分类树的分类器,对下一时刻的业务进行预测,下一时刻的业务通过每个分类树分类器的投票结果的简单多数投票法决定,具体为:
通过分类树分类,每棵分类树的最后一个节点都包含有之前分类时的参数信息;可定义n棵分类树中的第j棵分类树为hj(j=1,2,3...n),下一时刻的业务分类为c的概率为
Figure FDA0002442533660000024
采用多数投票法确定类别c←arg maxP(c|x),得出下一时刻的业务,信道通过该预测结果进行划分。
CN202010269379.1A 2020-04-08 2020-04-08 一种利用随机森林进行业务分类的方法 Pending CN111428808A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010269379.1A CN111428808A (zh) 2020-04-08 2020-04-08 一种利用随机森林进行业务分类的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010269379.1A CN111428808A (zh) 2020-04-08 2020-04-08 一种利用随机森林进行业务分类的方法

Publications (1)

Publication Number Publication Date
CN111428808A true CN111428808A (zh) 2020-07-17

Family

ID=71557607

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010269379.1A Pending CN111428808A (zh) 2020-04-08 2020-04-08 一种利用随机森林进行业务分类的方法

Country Status (1)

Country Link
CN (1) CN111428808A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107180362A (zh) * 2017-05-03 2017-09-19 浙江工商大学 基于深度学习的零售商品销售预测方法
CN107862347A (zh) * 2017-12-04 2018-03-30 国网山东省电力公司济南供电公司 一种基于随机森林的窃电行为的发现方法
CN108055094A (zh) * 2017-12-26 2018-05-18 成都爱科特科技发展有限公司 一种无人机操作手频谱特征识别与定位方法
CN109242203A (zh) * 2018-09-30 2019-01-18 中冶华天南京工程技术有限公司 一种河流水质预测及水质影响因素评估方法
CN110188196A (zh) * 2019-04-29 2019-08-30 同济大学 一种基于随机森林的文本增量降维方法
CN110443420A (zh) * 2019-08-05 2019-11-12 山东农业大学 一种基于机器学习的作物产量预测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107180362A (zh) * 2017-05-03 2017-09-19 浙江工商大学 基于深度学习的零售商品销售预测方法
CN107862347A (zh) * 2017-12-04 2018-03-30 国网山东省电力公司济南供电公司 一种基于随机森林的窃电行为的发现方法
CN108055094A (zh) * 2017-12-26 2018-05-18 成都爱科特科技发展有限公司 一种无人机操作手频谱特征识别与定位方法
CN109242203A (zh) * 2018-09-30 2019-01-18 中冶华天南京工程技术有限公司 一种河流水质预测及水质影响因素评估方法
CN110188196A (zh) * 2019-04-29 2019-08-30 同济大学 一种基于随机森林的文本增量降维方法
CN110443420A (zh) * 2019-08-05 2019-11-12 山东农业大学 一种基于机器学习的作物产量预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈超;李文藻;: "一种基于随机森林与颜色特征的岩屑识别算法" *

Similar Documents

Publication Publication Date Title
CN107577688B (zh) 基于媒体信息采集的原创文章影响力分析系统
WO2018014610A1 (zh) 基于c4.5决策树算法的特定用户挖掘系统及其方法
CN103117903B (zh) 上网流量异常检测方法及装置
CN106951471B (zh) 一种基于svm的标签发展趋势预测模型的构建方法
CN105843850B (zh) 搜索优化方法和装置
CN111008337B (zh) 一种基于三元特征的深度注意力谣言鉴别方法及装置
CN104731954A (zh) 基于群透视音乐推荐方法与系统
CN107341363B (zh) 一种蛋白质抗原表位的预测方法
CN104702465B (zh) 一种并行网络流量分类方法
CN111144459A (zh) 一种类不平衡的网络流量分类方法、装置及计算机设备
CN110990718B (zh) 一种公司形象提升系统的社会网络模型构建模块
CN108733791B (zh) 网络事件检测方法
CN109165273A (zh) 一种面向大数据环境的通用中文地址匹配方法
CN111651566B (zh) 基于多任务的小样本学习的裁判文书争议焦点提取方法
CN108737290A (zh) 基于负载映射与随机森林的非加密流量识别方法
CN108647729A (zh) 一种用户画像获取方法
CN115309906A (zh) 一种基于知识图谱技术的数据智能分类技术
CN115982132A (zh) 一种外销扇面图像数据样本库构建系统
CN103870489B (zh) 基于搜索日志的中文人名自扩展识别方法
CN104468276B (zh) 基于随机抽样多分类器的网络流量识别方法
CN113821702A (zh) 一种城市多维空间多元异构信息数据处理方法
CN116401586A (zh) 一种全场景业务智能感知与精准分类的方法
CN117478390A (zh) 一种基于改进密度峰值聚类算法的网络入侵检测方法
CN115510331B (zh) 一种基于闲置量聚合的共享资源匹配方法
CN111428808A (zh) 一种利用随机森林进行业务分类的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination