CN106228389A - 基于随机森林算法的网络潜力用户挖掘方法及系统 - Google Patents

基于随机森林算法的网络潜力用户挖掘方法及系统 Download PDF

Info

Publication number
CN106228389A
CN106228389A CN201610554562.XA CN201610554562A CN106228389A CN 106228389 A CN106228389 A CN 106228389A CN 201610554562 A CN201610554562 A CN 201610554562A CN 106228389 A CN106228389 A CN 106228389A
Authority
CN
China
Prior art keywords
user
decision tree
sample
sampling
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610554562.XA
Other languages
English (en)
Inventor
龚灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Douyu Network Technology Co Ltd
Original Assignee
Wuhan Douyu Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Douyu Network Technology Co Ltd filed Critical Wuhan Douyu Network Technology Co Ltd
Priority to CN201610554562.XA priority Critical patent/CN106228389A/zh
Publication of CN106228389A publication Critical patent/CN106228389A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Marketing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于随机森林算法的网络潜力用户挖掘方法及系统,涉及基于随机森林算法网络数据挖掘领域。该方法的步骤为:对每个抽样用户类别抽样选取指定数量的用户作为样本、并确定用户特征;对所有的用户特征进行多次抽样,根据每次抽样的用户特征的归一化特征值形成随机森林算法的决策树,在所有样本中为每棵决策树选取样本;基于随机森林算法,根据每棵决策树的样本和用户特征,将每棵决策树的数据分为2个类别,其中1类代表潜力用户,另1类代表非潜力用户;分别用每棵决策树对待分类用户进行分类,根据分类结果确定为待分类用户的类别。本发明不仅能够使得网络潜力用户的挖掘过程更加智能化,而且计算速度较快,工作效率较高。

Description

基于随机森林算法的网络潜力用户挖掘方法及系统
技术领域
本发明涉及基于随机森林算法网络数据挖掘领域,具体涉及一种基于随机森林算法的网络潜力用户挖掘方法及系统。
背景技术
随着在网络直播行业的飞速发展,直播网站的用户呈爆炸式增长。在此基础上,直播网站的运营商需要快速有效的将具有潜力的用户从全站用户中筛选出来,以方便运营人员针对潜力用户做进一步的精细化营销方案,进而提高用户的付费转化率。
目前,传统的潜力用户挖掘方法一般为以下2种:1、通过人工提取,即根据个人经验组合用户的有效行为特征,以此来人工筛选潜力用户;2、通过常用的决策树、knn(k-NearestNeighbor,分类算法)或朴素贝叶斯等算法进行二次分类来挖掘潜力用户。
但是,上述2种方法分别存在以下缺陷:
(1)人工筛选的方法一般会带有较大程度的主观性,在海量数据的场景下,数据往往维度多、数据量大,靠人工是很难将用户兴趣度相关指标统计全面的,进而使得人工筛选出的潜力用户的精准度较低。
(2)二次分类挖掘潜力用户的方法容易过拟合,面对不均衡的样本数据时,二次分类的误差较大,而且对数值缺失敏感,进而降低挖掘到的潜力用户的精准度。
发明内容
针对现有技术中存在的缺陷,本发明解决的技术问题为:在保证精准度的基础上自动挖掘网络潜力。本发明不仅能够使得网络潜力用户的挖掘过程更加智能化,挖掘网络潜力用户的用户特征比较全面,而且计算速度较快,工作效率较高。
为达到以上目的,本发明提供的基于随机森林算法的网络潜力用户挖掘方法,包括以下步骤:
S1:在需要挖掘网络潜力用户的网络平台中,定义抽样用户类别为付费用户和从未付费用户,对每个抽样用户类别抽样选取指定数量的用户作为样本;
S2:确定每个样本的用户特征;
S3:计算每个样本的用户特征的归一化特征值Y,计算公式为:Y=(X-MinX)/(MaxX-MinX);其中X代表当前样本的用户特征参数,MinX代表所有样本中当前用户特征的最小参数,MaxX代表所有样本中当前用户特征的最大参数;
S4:对所有的用户特征进行多次抽样,根据每次抽样的用户特征的归一化特征值形成随机森林算法的决策树;
S5:在所有样本中,为每棵决策树选取指定数量的样本;
S6:基于随机森林算法,根据每棵决策树的样本和用户特征的归一化特征值,将每棵决策树的数据分为2个类别,其中1类代表潜力用户,另1类代表非潜力用户;
S7:根据每棵决策树中的2个类别对待分类用户进行分类,统计所有决策树中相同类别的数量,将相同数量多的类别确定为待分类用户的类别。
本发明提供的实现上述方法的基于随机森林算法的网络潜力用户挖掘系统,包括抽样用户类别定义模块、用户特征选取模块、归一化特征值计算模块、决策树构建模块、决策树样本选取模块、决策树训练模块和网络潜力用户定义模块;
抽样用户类别定义模块用于:在需要挖掘网络潜力用户的网络平台中,定义抽样用户类别为付费用户和从未付费用户,对每个抽样用户类别抽样选取指定数量的用户作为样本;
用户特征选取模块用于:确定每个样本的用户特征;
归一化特征值计算模块用于:计算每个样本的用户特征的归一化特征值Y,计算公式为:Y=(X-MinX)/(MaxX-MinX);其中X代表当前样本的用户特征参数,MinX代表所有样本中当前用户特征的最小参数,MaxX代表所有样本中当前用户特征的最大参数;
决策树构建模块用于:对所有的用户特征进行多次抽样,根据每次抽样的用户特征的归一化特征值形成随机森林算法的决策树;
决策树样本选取模块用于:在所有样本中,为每棵决策树选取指定数量的样本;
决策树训练模块用于:基于随机森林算法,根据每棵决策树的样本和用户特征的归一化特征值,将每棵决策树的数据分为2个类别,其中1类代表潜力用户,另1类代表非潜力用户;
网络潜力用户定义模块用于:根据每棵决策树中的2个类别对待分类用户进行分类,统计所有决策树中相同类别的数量,将相同数量多的类别确定为待分类用户的类别。
与现有技术相比,本发明的优点在于:
(1)本发明采用基于随机森林算法的方法,自动计算和挖掘网络潜力用户,不需要人工主观性判断,基于随机森林的挖掘算法能够很好地找到网络潜力用户,且算法模型更鲁棒,受异常数据影响较小,不会产生过拟合。因此,本发明不仅能够使得网络潜力用户的挖掘过程更加智能化,而且挖掘网络潜力用户的用户特征比较全面,挖掘到的潜力用户的精准度较高。
(2)本发明实际使用时,能够基于Spark的内存计算和挖掘网络潜力用户,其计算速度较快,能够显著缩短计算周期,进而提高工作效率。
附图说明
图1为本发明实施例中基于随机森林算法的网络潜力用户挖掘方法的流程图;
图2为在Spark MLlib上实现基于随机森林算法的网络潜力用户挖掘方法的流程图。
具体实施方式
以下结合附图及实施例对本发明作进一步详细说明。
参见图1所示,本发明实施例中的基于随机森林算法的网络潜力用户挖掘方法,其核心算法是随机森林:随机森林算法是机器学习、计算机视觉等领域内应用极为广泛的一个算法,它不仅可以用来做分类,也可用来做回归即预测,随机森林机由多个决策树构成,相比于单个决策树算法,它分类、预测效果更好,不容易出现过度拟合的情况。
在此基础上,本发明实施例中的基于随机森林算法的网络潜力用户挖掘方法,包括以下步骤:
S1:选择样本数据:在需要挖掘网络潜力用户的网络平台中,定义抽样用户类别为付费用户(正样本)和从未付费用户(负样本),对每个抽样用户类别抽样选取指定数量的用户作为样本,转到S2。
S2:确定每个样本(正样本和负样本)的用户特征,转到S3。
S2中的用户特征之前已经预定义,本实施例中的用户特征为:观看时长、观看次数、发送弹幕数量、赠送礼物数量(例如斗鱼直播平台的鱼丸)、在线领取礼物数量、发送鱼翅金额、关注房间数量、关注分区数量、指定分区观看时长(本实施例中分区为直播平台中最火热的10个分区)、指定分区观看次数、指定分区发弹幕数量、指定分区赠送礼物数量、指定分区在线领取礼物数量、指定分区发送鱼翅金额和指定分区关注房间数量。由于每一个top特征可看成10个细分特征,因此本实施例中总计78个用户特征。
S3:归一化特征值:为了避免因不同用户特征的差异较大,而导致对分类结果造成影响,在此需要计算每个样本的用户特征的归一化特征值Y,Y的计算公式为:Y=(X-MinX)/(MaxX-MinX),其中X代表当前样本的用户特征参数,MinX代表所有样本中当前用户特征的最小参数,MaxX代表所有样本中当前用户特征的最大参数。根据上述计算公式得出的Y的值均集中在(0,1]之间,特征量纲差异较小,转到S4。
S3举例如下:例如计算第3个样本的用户特征(观看时长),第3个样本的观看时长的参数为50,所有样本中最小的观看时长参数为30,最大的观看时长参数为70,则Y=(50-30)/(70-90)。
S4:对所有的用户特征进行多次抽样,根据每次抽样的用户特征的归一化特征值形成随机森林算法的决策树(随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的总数而定):本实施例中对所有的用户特征进行多次抽样的方式为不放回抽样,每次抽样均选取3个用户特征的归一化特征值(实际应用中每次抽样选取的用户特征可不同,但是至少3个以上),78/3=26,即一共有26棵决策树,转到S5。
S5:随机选取样本数据:在所有样本(所有正负样本)中,为每棵决策树抽样选取样本。本实施例中为每棵决策树采用有放回抽样的方式,抽样选取所有样本总量(所有正负样本数量之和)的60%~80%的样本,转到S6。
S6:基于随机森林算法,根据每棵决策树的样本和用户特征的归一化特征值,对每棵决策树进行训练:将每棵决策树的数据分为2个类别,其中1类代表潜力用户,另1类代表非潜力用户,转到S7。
S7:所有决策树训练完毕后,随机森林也就够构造完毕了。根据每棵决策树中的2个类别对待分类用户进行分类,统计所有决策树中相同类别的数量,将相同数量多的类别确定为待分类用户的类别;即少数服从多数投票原则,例如26棵决策树中有16个分类结果为潜力用户,10个分类结果为非潜力用户,16>10,因此当前用户为潜力用户。
S6的具体流程为:
S601:将每棵决策树的所有样本作为训练数据集D,计算数据集D的信息熵info(D),计算公式为:
上述公式中m代表类别数量,本实施例中为2个类别,即m=2,Pi代表第i个类别在数据集D中出现的概率。
S602:将每棵决策树的用户特征的归一化特征值作为属性集A,根据每棵决策树的info(D),计算属性集A中每个属性的信息增益gain(A),计算公式为:
gain(A)=info(D)-infoA(D),
上述公式中Di代表第i个类别在数据集D中的数量。
S603:将gain(A)最大的属性作为最强属性,计算最强属性的信息增益率gainratio(A),计算公式为:
gainratio(A)=gain(A)/IntrinsicInfo(A);
I n t r i n s i c I n f o ( A ) = - Σ i = 1 m | D i | | D | log 2 | D i | | D | ;
根据最强属性的信息增益率gainratio(A)选择最佳分裂位置,将数据集D分为2类数据,1类代表潜力用户,另1类代表非潜力用户。
S604:判断数据集D的2类数据是否同时符合要求(即每类数据中的所有数据类别相同,或者分类数据量达到一个下限阈值,或者决策树达到指定深度),若是,转到S7,否则将当前最强属性对应的用户特征剔除后,重新执行S601。
本发明实施例中的基于随机森林算法的网络潜力用户挖掘方法,在Spark MLlib上实现,Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
参见图2所示,在Spark MLlib上实现基于随机森林算法的网络潜力用户挖掘方法时,包括以下流程:
步骤一、准备好S1中的样本数据,采用S2和S3的步骤对样本数据的用户特征进行归一化;
步骤二、将样本数据和用户特征的归一化特征值输入至parkMLlib的算法接口;设置随机森林的决策树的棵数26;构建决策树的停止条件,这里指定树的深度来作为决策树停止条件;设置类的个数,这里是两个:潜力用户1、非潜力用户0;
步骤三、调用Spark MLlib中RandomForestModel.trainClassifier方法,训练和构建基于随机森林算法的潜力网络用户的挖掘模型;鉴于Spark MLlib提供的是算法接口,且S4至S6中中详细介绍了决策树的训练方法,此处不再赘述;
步骤四、将待分类用户的数据按样本数据的格式输入训练好的决策数模型,即可得到待分类用户的类别,若待分类用户为潜力用户,则存入MySQL中的存储表,若待分类用户为非潜力用户,则丢弃当前用户的数据。
本发明实施例中的实现上述方法的基于随机森林算法的网络潜力用户挖掘系统,包括抽样用户类别定义模块、用户特征选取模块、归一化特征值计算模块、决策树构建模块、决策树样本选取模块、决策树训练模块和网络潜力用户定义模块。
抽样用户类别定义模块用于:在需要挖掘网络潜力用户的网络平台中,定义抽样用户类别为付费用户和从未付费用户,对每个抽样用户类别抽样选取指定数量的用户作为样本;
用户特征选取模块用于:确定每个样本的用户特征;
归一化特征值计算模块用于:计算每个样本的用户特征的归一化特征值Y,计算公式为:Y=(X-MinX)/(MaxX-MinX);其中X代表当前样本的用户特征参数,MinX代表所有样本中当前用户特征的最小参数,MaxX代表所有样本中当前用户特征的最大参数;
决策树构建模块用于:对所有的用户特征进行多次抽样,根据每次抽样的用户特征的归一化特征值形成随机森林算法的决策树;具体工作流程为:对所有的用户特征进行多次不放回抽样,每次抽样选取至少3个用户特征的归一化特征值形成随机森林算法的决策树。
决策树样本选取模块用于:在所有样本中,为每棵决策树选取指定数量的样本;具体工作流程为:为每棵决策树采用有放回抽样的方式,抽样选取所有样本总量的60%~80%的样本。
决策树训练模块用于:基于随机森林算法,根据每棵决策树的样本和用户特征的归一化特征值,将每棵决策树的数据分为2个类别,其中1类代表潜力用户,另1类代表非潜力用户;具体工作流程为:
将每棵决策树的所有样本作为训练数据集D,计算数据集D的信息熵info(D),计算公式为:
上述公式中m代表类别数量,Pi代表第i个类别在数据集D中出现的概率;
将每棵决策树的用户特征的归一化特征值作为属性集A,根据每棵决策树的info(D),计算属性集A中每个属性的信息增益gain(A),计算公式为:
gain(A)=info(D)-infoA(D),
上述公式中Di代表第i个类别在数据集D中的数量;
将gain(A)最大的属性作为最强属性,计算最强属性的信息增益率gainratio(A),计算公式为:
gainratio(A)=gain(A)/IntrinsicInfo(A);
I n t r i n s i c I n f o ( A ) = - Σ i = 1 m | D i | | D | log 2 | D i | | D | ;
根据最强属性的信息增益率gainratio(A)选择最佳分裂位置,将数据集D分为2类数据,1类代表潜力用户,另1类代表非潜力用户;
判断数据集D的2类数据是否同时符合要求(每类数据中的所有数据类别相同、或者分类数据量达到下限阈值、或者决策树达到指定深度),若是,工作完成,否则将当前最强属性对应的用户特征剔除后,重新将决策树的剩余所有样本作为训练数据集D、并进行后续工作流程。
网络潜力用户定义模块用于:根据每棵决策树中的2个类别对待分类用户进行分类,统计所有决策树中相同类别的数量,将相同数量多的类别确定为待分类用户的类别。
本发明不局限于上述实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims (10)

1.一种基于随机森林算法的网络潜力用户挖掘方法,其特征在于,该方法包括以下步骤:
S1:在需要挖掘网络潜力用户的网络平台中,定义抽样用户类别为付费用户和从未付费用户,对每个抽样用户类别抽样选取指定数量的用户作为样本;
S2:确定每个样本的用户特征;
S3:计算每个样本的用户特征的归一化特征值Y,计算公式为:Y=(X-MinX)/(MaxX-MinX);其中X代表当前样本的用户特征参数,MinX代表所有样本中当前用户特征的最小参数,MaxX代表所有样本中当前用户特征的最大参数;
S4:对所有的用户特征进行多次抽样,根据每次抽样的用户特征的归一化特征值形成随机森林算法的决策树;
S5:在所有样本中,为每棵决策树选取指定数量的样本;
S6:基于随机森林算法,根据每棵决策树的样本和用户特征的归一化特征值,将每棵决策树的数据分为2个类别,其中1类代表潜力用户,另1类代表非潜力用户;
S7:根据每棵决策树中的2个类别对待分类用户进行分类,统计所有决策树中相同类别的数量,将相同数量多的类别确定为待分类用户的类别。
2.如权利要求1所述的基于随机森林算法的网络潜力用户挖掘方法,其特征在于,S6的具体流程为:
S601:将每棵决策树的所有样本作为训练数据集D,计算数据集D的信息熵info(D),计算公式为:
上述公式中m代表类别数量,Pi代表第i个类别在数据集D中出现的概率;
S602:将每棵决策树的用户特征的归一化特征值作为属性集A,根据每棵决策树的info(D),计算属性集A中每个属性的信息增益gain(A),计算公式为:
gain(A)=info(D)-infoA(D),
上述公式中Di代表第i个类别在数据集D中的数量;
S603:将gain(A)最大的属性作为最强属性,计算最强属性的信息增益率gainratio(A),计算公式为:
gainratio(A)=gain(A)/IntrinsicInfo(A);
I n t r i n s i c I n f o ( A ) = - Σ i = 1 m | D i | | D | log 2 | D i | | D | ;
根据最强属性的信息增益率gainratio(A)选择最佳分裂位置,将数据集D分为2类数据,1类代表潜力用户,另1类代表非潜力用户;
S604:判断数据集D的2类数据是否同时符合要求,若是,转到S7,否则将当前最强属性对应的用户特征剔除后,重新执行S601。
3.如权利要求2所述的基于随机森林算法的网络潜力用户挖掘方法,其特征在于:S604中所述数据集D中的2类数据符合要求的条件为:每类数据中的所有数据类别相同、或者分类数据量达到下限阈值。
4.如权利要求1至3任一项所述的基于随机森林算法的网络潜力用户挖掘方法,其特征在于,S4的具体流程为:对所有的用户特征进行多次不放回抽样,每次抽样选取至少3个用户特征的归一化特征值形成随机森林算法的决策树。
5.如权利要求1至3任一项所述的基于随机森林算法的网络潜力用户挖掘方法,其特征在于,S5的具体流程为:为每棵决策树采用有放回抽样的方式,抽样选取所有样本总量的60%~80%的样本。
6.如权利要求1至3任一项所述的基于随机森林算法的网络潜力用户挖掘方法,其特征在于,S2中所述用户特征包括:观看时长、观看次数、发送弹幕数量、赠送礼物数量、在线领取礼物数量、关注房间数量、关注分区数量、指定分区观看时长、指定分区观看次数、指定分区发弹幕数量、指定分区赠送礼物数量、指定分区在线领取礼物数量和指定分区关注房间数量。
7.一种实现权利要求1至6任一项所述方法的基于随机森林算法的网络潜力用户挖掘系统,其特征在于:该系统包括抽样用户类别定义模块、用户特征选取模块、归一化特征值计算模块、决策树构建模块、决策树样本选取模块、决策树训练模块和网络潜力用户定义模块;
抽样用户类别定义模块用于:在需要挖掘网络潜力用户的网络平台中,定义抽样用户类别为付费用户和从未付费用户,对每个抽样用户类别抽样选取指定数量的用户作为样本;
用户特征选取模块用于:确定每个样本的用户特征;
归一化特征值计算模块用于:计算每个样本的用户特征的归一化特征值Y,计算公式为:Y=(X-MinX)/(MaxX-MinX);其中X代表当前样本的用户特征参数,MinX代表所有样本中当前用户特征的最小参数,MaxX代表所有样本中当前用户特征的最大参数;
决策树构建模块用于:对所有的用户特征进行多次抽样,根据每次抽样的用户特征的归一化特征值形成随机森林算法的决策树;
决策树样本选取模块用于:在所有样本中,为每棵决策树选取指定数量的样本;
决策树训练模块用于:基于随机森林算法,根据每棵决策树的样本和用户特征的归一化特征值,将每棵决策树的数据分为2个类别,其中1类代表潜力用户,另1类代表非潜力用户;
网络潜力用户定义模块用于:根据每棵决策树中的2个类别对待分类用户进行分类,统计所有决策树中相同类别的数量,将相同数量多的类别确定为待分类用户的类别。
8.如权利要求7所述的基于随机森林算法的网络潜力用户挖掘系统,其特征在于,所述决策树训练模块的具体工作流程为:
将每棵决策树的所有样本作为训练数据集D,计算数据集D的信息熵info(D),计算公式为:
上述公式中m代表类别数量,Pi代表第i个类别在数据集D中出现的概率;
将每棵决策树的用户特征的归一化特征值作为属性集A,根据每棵决策树的info(D),计算属性集A中每个属性的信息增益gain(A),计算公式为:
gain(A)=info(D)-infoA(D),
上述公式中Di代表第i个类别在数据集D中的数量;
将gain(A)最大的属性作为最强属性,计算最强属性的信息增益率gainratio(A),计算公式为:
gainratio(A)=gain(A)/IntrinsicInfo(A);
I n t r i n s i c I n f o ( A ) = - Σ i = 1 m | D i | | D | log 2 | D i | | D | ;
根据最强属性的信息增益率gainratio(A)选择最佳分裂位置,将数据集D分为2类数据,1类代表潜力用户,另1类代表非潜力用户;
判断数据集D的2类数据是否同时符合要求,若是,工作完成,否则将当前最强属性对应的用户特征剔除后,重新将决策树的剩余所有样本作为训练数据集D、并进行后续工作流程。
9.如权利要求8所述的基于随机森林算法的网络潜力用户挖掘系统,其特征在于:所述数据集D中的2类数据符合要求的条件为:每类数据中的所有数据类别相同、或者分类数据量达到下限阈值。
10.如权利要求7至9任一项所述的基于随机森林算法的网络潜力用户挖掘系统,其特征在于:
所述决策树构建模块的具体工作流程为:对所有的用户特征进行多次不放回抽样,每次抽样选取至少3个用户特征的归一化特征值形成随机森林算法的决策树;
所述决策树样本选取模块的具体工作流程为:为每棵决策树采用有放回抽样的方式,抽样选取所有样本总量的60%~80%的样本。
CN201610554562.XA 2016-07-14 2016-07-14 基于随机森林算法的网络潜力用户挖掘方法及系统 Pending CN106228389A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610554562.XA CN106228389A (zh) 2016-07-14 2016-07-14 基于随机森林算法的网络潜力用户挖掘方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610554562.XA CN106228389A (zh) 2016-07-14 2016-07-14 基于随机森林算法的网络潜力用户挖掘方法及系统

Publications (1)

Publication Number Publication Date
CN106228389A true CN106228389A (zh) 2016-12-14

Family

ID=57519787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610554562.XA Pending CN106228389A (zh) 2016-07-14 2016-07-14 基于随机森林算法的网络潜力用户挖掘方法及系统

Country Status (1)

Country Link
CN (1) CN106228389A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107180362A (zh) * 2017-05-03 2017-09-19 浙江工商大学 基于深度学习的零售商品销售预测方法
CN107547541A (zh) * 2017-08-31 2018-01-05 武汉斗鱼网络科技有限公司 spark‑mlib调用方法、存储介质、电子设备及系统
CN108230039A (zh) * 2018-01-17 2018-06-29 平安好房(上海)电子商务有限公司 潜在成交房源筛选方法、装置、设备及可读存储介质
CN108228809A (zh) * 2017-12-29 2018-06-29 广州品唯软件有限公司 一种参数确定方法和装置
WO2019037202A1 (zh) * 2017-08-24 2019-02-28 平安科技(深圳)有限公司 目标客户的识别方法、装置、电子设备及介质
CN109636430A (zh) * 2017-10-09 2019-04-16 北京京东尚科信息技术有限公司 对象识别方法及其系统
CN109711865A (zh) * 2018-12-07 2019-05-03 恒安嘉新(北京)科技股份公司 一种基于用户行为挖掘的移动通信网流量精细化预测的方法
CN109961163A (zh) * 2017-12-22 2019-07-02 广东欧珀移动通信有限公司 性别预测方法、装置、存储介质及电子设备
CN110610373A (zh) * 2018-06-15 2019-12-24 中国移动通信集团有限公司 一种潜在客户挖掘处理方法及装置
CN110991551A (zh) * 2019-12-13 2020-04-10 北京百度网讯科技有限公司 样本处理方法、装置、电子设备和存储介质
CN111259933A (zh) * 2020-01-09 2020-06-09 中国科学院计算技术研究所 基于分布式并行决策树的高维特征数据分类方法及系统
CN111385655A (zh) * 2018-12-29 2020-07-07 武汉斗鱼网络科技有限公司 一种广告弹幕检测方法、装置、服务器及存储介质
CN111401391A (zh) * 2019-01-02 2020-07-10 中国移动通信有限公司研究院 一种数据挖掘方法、装置及计算机可读存储介质
CN112487262A (zh) * 2020-11-25 2021-03-12 建信金融科技有限责任公司 一种数据处理的方法和装置
CN112667911A (zh) * 2021-01-14 2021-04-16 中山世达模型制造有限公司 一种利用社交软件大数据找寻潜在客户的方法
CN116204567A (zh) * 2023-04-28 2023-06-02 京东科技控股股份有限公司 用户挖掘及模型的训练方法、装置、电子设备和存储介质

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107180362A (zh) * 2017-05-03 2017-09-19 浙江工商大学 基于深度学习的零售商品销售预测方法
WO2019037202A1 (zh) * 2017-08-24 2019-02-28 平安科技(深圳)有限公司 目标客户的识别方法、装置、电子设备及介质
CN107547541A (zh) * 2017-08-31 2018-01-05 武汉斗鱼网络科技有限公司 spark‑mlib调用方法、存储介质、电子设备及系统
CN109636430A (zh) * 2017-10-09 2019-04-16 北京京东尚科信息技术有限公司 对象识别方法及其系统
CN109961163A (zh) * 2017-12-22 2019-07-02 广东欧珀移动通信有限公司 性别预测方法、装置、存储介质及电子设备
CN108228809A (zh) * 2017-12-29 2018-06-29 广州品唯软件有限公司 一种参数确定方法和装置
CN108230039A (zh) * 2018-01-17 2018-06-29 平安好房(上海)电子商务有限公司 潜在成交房源筛选方法、装置、设备及可读存储介质
CN110610373A (zh) * 2018-06-15 2019-12-24 中国移动通信集团有限公司 一种潜在客户挖掘处理方法及装置
CN109711865A (zh) * 2018-12-07 2019-05-03 恒安嘉新(北京)科技股份公司 一种基于用户行为挖掘的移动通信网流量精细化预测的方法
CN111385655A (zh) * 2018-12-29 2020-07-07 武汉斗鱼网络科技有限公司 一种广告弹幕检测方法、装置、服务器及存储介质
CN111401391A (zh) * 2019-01-02 2020-07-10 中国移动通信有限公司研究院 一种数据挖掘方法、装置及计算机可读存储介质
CN111401391B (zh) * 2019-01-02 2024-05-07 中国移动通信有限公司研究院 一种数据挖掘方法、装置及计算机可读存储介质
CN110991551A (zh) * 2019-12-13 2020-04-10 北京百度网讯科技有限公司 样本处理方法、装置、电子设备和存储介质
CN110991551B (zh) * 2019-12-13 2023-09-15 北京百度网讯科技有限公司 样本处理方法、装置、电子设备和存储介质
CN111259933A (zh) * 2020-01-09 2020-06-09 中国科学院计算技术研究所 基于分布式并行决策树的高维特征数据分类方法及系统
CN111259933B (zh) * 2020-01-09 2023-06-13 中国科学院计算技术研究所 基于分布式并行决策树的高维特征数据分类方法及系统
CN112487262B (zh) * 2020-11-25 2023-05-26 中国建设银行股份有限公司 一种数据处理的方法和装置
CN112487262A (zh) * 2020-11-25 2021-03-12 建信金融科技有限责任公司 一种数据处理的方法和装置
CN112667911A (zh) * 2021-01-14 2021-04-16 中山世达模型制造有限公司 一种利用社交软件大数据找寻潜在客户的方法
CN116204567A (zh) * 2023-04-28 2023-06-02 京东科技控股股份有限公司 用户挖掘及模型的训练方法、装置、电子设备和存储介质
CN116204567B (zh) * 2023-04-28 2023-09-05 京东科技控股股份有限公司 用户挖掘及模型的训练方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN106228389A (zh) 基于随机森林算法的网络潜力用户挖掘方法及系统
US10606862B2 (en) Method and apparatus for data processing in data modeling
CN109034194B (zh) 基于特征分化的交易欺诈行为深度检测方法
CN108520357B (zh) 一种线损异常原因的判别方法、装置及服务器
CN103166830B (zh) 一种智能选择训练样本的垃圾邮件过滤系统和方法
CN109492026B (zh) 一种基于改进的主动学习技术的电信欺诈分类检测方法
WO2017143921A1 (zh) 一种多重抽样模型训练方法及装置
CN106528528A (zh) 文本情感分析的方法及装置
CN108897834A (zh) 数据处理与挖掘方法
CN105871887B (zh) 基于客户端的个性化电子邮件过滤系统和过滤方法
CN107784324A (zh) 基于深度残差网络的白血细胞多分类识别方法
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
CN110826618A (zh) 一种基于随机森林的个人信用风险评估方法
CN107273387A (zh) 面向高维和不平衡数据分类的集成
WO2024067387A1 (zh) 基于特征变量评分的用户画像生成方法,设备、汽车及存储介质
CN109857862A (zh) 基于智能决策的文本分类方法、装置、服务器及介质
CN103617435A (zh) 一种主动学习图像分类方法和系统
CN108647691A (zh) 一种基于点击特征预测的图像分类方法
CN113516228B (zh) 一种基于深度神经网络的网络异常检测方法
CN103473231A (zh) 分类器构建方法和系统
KR20200010624A (ko) 머신러닝을 이용한 빅데이터 통합진단 예측 시스템
CN112396428B (zh) 一种基于用户画像数据的客群分类管理方法及装置
CN114764682B (zh) 一种基于多机器学习算法融合的大米安全风险评估方法
CN109635104A (zh) 数据分类标识方法、装置、计算机设备及可读存储介质
CN118014373B (zh) 一种基于数据质量监测的风险识别模型及其构建方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161214

RJ01 Rejection of invention patent application after publication