CN106228398A - 基于c4.5决策树算法的特定用户挖掘系统及其方法 - Google Patents

基于c4.5决策树算法的特定用户挖掘系统及其方法 Download PDF

Info

Publication number
CN106228398A
CN106228398A CN201610573315.4A CN201610573315A CN106228398A CN 106228398 A CN106228398 A CN 106228398A CN 201610573315 A CN201610573315 A CN 201610573315A CN 106228398 A CN106228398 A CN 106228398A
Authority
CN
China
Prior art keywords
categorical attribute
user
data
divided
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610573315.4A
Other languages
English (en)
Inventor
龚灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Douyu Network Technology Co Ltd
Original Assignee
Wuhan Douyu Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Douyu Network Technology Co Ltd filed Critical Wuhan Douyu Network Technology Co Ltd
Priority to CN201610573315.4A priority Critical patent/CN106228398A/zh
Publication of CN106228398A publication Critical patent/CN106228398A/zh
Priority to PCT/CN2017/080782 priority patent/WO2018014610A1/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于C4.5决策树算法的特定用户挖掘系统及其方法,涉及直播网站数据挖掘领域,包括:样本选择模块,其用于选择用户样本,用户样本根据类标签分为付费用户样本和未付费用户样本。行为属性统计模块,其用于统计用户样本的分类属性的属性值。样本处理模块,其用于将分类属性的属性值归一化处理作为训练样本数据。以及算法平台,其用于接收训练样本数据,算法平台包括C4.5决策树算法,并为C4.5决策树算法提供算法接口,算法平台基于训练样本数据和C4.5决策树算法训练C4.5决策树模型。本发明中的基于C4.5决策树算法的特定用户挖掘系统能够在数据维度多、数据量大的情况下全面统计用户兴趣度相关指标,便于挖掘特定用户。

Description

基于C4.5决策树算法的特定用户挖掘系统及其方法
技术领域
本发明涉及直播网站数据挖掘领域,具体涉及一种基于C4.5决策树算法的特定用户挖掘系统及其方法。
背景技术
近些年来,在直播行业飞速发展的同时,直播网站的用户也呈爆炸式增长。如何快速有效的将具有潜力的用户从全站用户中筛选出来,方便运营人员针对特定用户做进一步的精细化营销方案,提高用户的付费转化率,是每一个直播网站不可逃避的问题。
目前,传统的用户兴趣度挖掘多为人工提取、根据个人经验组合有效行为特征来人工筛选用户兴趣度。然而上述人工筛选的方法往往带有较大程度的主观性,另外,在海量数据的场景下,数据往往维度多、数据量大,靠人工是很难将用户兴趣度相关指标统计全面的。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种基于C4.5决策树算法的特定用户挖掘系统,其基于决策树挖掘算法能全面的统计用户兴趣度相关指标,挖掘特定用户。
为达到以上目的,本发明采取的技术方案是:一种基于C4.5决策树算法的特定用户挖掘系统,包括:
样本选择模块,其用于选择用户样本,所述用户样本根据类标签分为付费用户样本和未付费用户样本;
行为属性统计模块,其用于统计所述用户样本的分类属性的属性值;
样本处理模块,其用于将所述分类属性的属性值归一化处理作为训练样本数据;以及
算法平台,其用于接收所述训练样本数据,所述算法平台包括所述C4.5决策树算法,并为所述C4.5决策树算法提供算法接口,且所述算法平台基于所述训练样本数据和C4.5决策树算法训练C4.5决策树模型。
在上述技术方案的基础上,所述分类属性包括观看时长、观看次数、发弹幕数、送出虚礼礼物数、领取虚礼礼物数、关注房间数、关注分区数。
在上述技术方案的基础上,所述算法平台为Spark平台,所述Spark平台包括算法组件Spark MLlib,所述Spark MLlib包括算法库,所述算法库内设有所述C4.5决策树算法,且所述Spark MLlib为所述C4.5决策树算法提供算法接口。
在上述技术方案的基础上,所述算法平台基于C4.5决策树算法找出分类属性中信息增益率最大的分类属性,并将其作为待分裂的分类属性,所述算法平台还用于找出所述待分裂的分类属性的最佳分裂位置,并将所述训练样本数据在所述待分裂的分类属性的最佳分裂位置进行分裂,针对分裂后所得到的每一类数据,所述算法平台基于C4.5决策树算法在剩下的分类属性中各自再次确定待分裂的分类属性,再各自确定每一类数据各自的最佳分裂位置,最后对每一类数据在各自的最佳分裂位置按照再次确定待分裂的分类属性进行分裂,直到所有分类属性全部用完。
与此同时,本发明还提供一种基于决策树挖掘算法能全面的统计用户兴趣度相关指标,挖掘特定用户的方法。
为达到以上目的,本发明采取的技术方案是:一种利用上述特定用户挖掘系统挖掘特定用户的方法,包括以下步骤:
S1.样本选择模块选择用户样本,用户样本根据类标签分为付费用户样本和未付费用户样本;
S2.行为属性统计模块统计用户样本的分类属性的属性值;
S3.样本处理模块将分类属性的属性值归一化处理得到训练样本数据D;
S4.算法平台接收训练样本数据D,并训练C4.5决策树模型;
S5.C4.5决策树模型训练完毕后,将新的用户的分类属性的属性值按步骤S3归一化处理后输入训练好的C4.5决策树模型,结束。
在上述技术方案的基础上,所述训练C4.5决策树模型包括以下步骤:
S41.计算训练样本数据D的信息熵,其中pi表示第i个类别在训练样本数据D中出现的概率,i=1,2,...m,m的值与类标签的数量相等;
S42.记A为所有分类属性的属性集,分类属性Aj为属性集A中的一个元素,分类属性Aj将训练样本数据D分为v个不相交的子集{D1,D2...,Dv},计算按照分类属性Aj划分后的个子集的信息熵加权和,其中v的值与类标签的数量相等,Dj表示将D分为v类后第j类所对应的训练样本数据;
S43.计算属性集A中的每一个分类属性的信息增益,
S44.计算分类属性A中的每一个分类属性的信息增益率,其中是考虑分裂信息的度量,其中v的值与类标签的数量相等,Dj表示将D分为v类后第j类所对应的训练样本数据;
S45.找出属性集A中信息增益率最大的分类属性,并将其作为待分裂的分类属性;
S46.将训练样本数据D中待分裂的分类属性的属性值按照递增排序得到一数据集,将数据集划分为N+1种不同的两个子数据集,对应N+1个划分点,对于位于第一个划分点和最后一个划分点中间的N-1个划分点,通过计算N-1对两两相邻属性值的平均值来确定其位置,并保证待分裂的分类属性的所有属性值位于第一个划分点和最后一个划分点之间,根据N+1种不同的两个子数据集,计算所有划分点的信息增益,将信息增益最大的划分点作为最佳分裂位置,然后将训练样本数据D按照待分裂的分类属性在最佳分裂位置分裂成与类标签的数量相等的类别;
S47.对于训练样本数据D按照待分裂的分类属性在最佳分裂位置分裂成的每一类数据,重复执行步骤S41-S46,在属性集A剩下的分类属性中各自再次确定待分裂的分类属性,再各自确定每一类数据各自的最佳分裂位置,最后对每一类数据在各自的最佳分裂位置按照再次确定待分裂的分类属性进行分裂,直到属性集A中的所有分类属性全部用完。
在上述技术方案的基础上,所述行为属性统计模块统计用户的观看时长、观看次数、送出虚礼礼物数、领取虚礼礼物数、关注房间数、关注分区数。
在上述技术方案的基础上,所述算法平台为Spark平台,所述Spark平台包括算法组件Spark MLlib,所述Spark MLlib包括算法库,所述算法库内设有所述C4.5决策树算法,且所述Spark MLlib为所述C4.5决策树算法提供算法接口并训练C4.5决策树模型。
在上述技术方案的基础上,所述步骤S41中m的取值为2。
在上述技术方案的基础上,所述步骤S42中v的取值为2。
与现有技术相比,本发明的优点在于:
本发明的基于C4.5决策树算法的特定用户挖掘系统包括Spark平台,Spark平台包括算法组件Spark MLlib,Spark MLlib为C4.5决策树算法提供算法接口,基于C4.5决策树算法,能够在数据维度多、数据量大的情况下全面统计用户兴趣度相关指标,便于挖掘特定用户。此外基于Spark的内存计算,在计算速度方面更快,大大缩短了计算周期。
附图说明
图1为本发明中基于C4.5决策树算法的特定用户挖掘系统的结构示意图;
图2为本发明中挖掘特定用户的流程图;
图3为本发明中训练C4.5决策树模型的流程图。
具体实施方式
以下结合附图对本发明作进一步详细说明。
参见图1所示,本发明提供一种基于C4.5决策树算法的特定用户挖掘系统,其包括样本选择模块、行为属性统计模块、样本处理模块和算法平台。
样本选择模块,其用于选择用户样本,用户样本根据类标签分为付费用户样本和未付费用户样本,其中付费用户样本标记为1,未付费用户样本标记为0。
行为属性统计模块,其用于统计用户样本的分类属性的属性值,本发明中统计的分类属性主要包括观看时长、观看次数、发弹幕数、送出虚礼礼物数、领取虚礼礼物数、关注房间数、关注分区数。
样本处理模块,其用于将分类属性的属性值归一化处理作为训练样本数据。因为上述的分类属性的量纲不同。为了避免因分类属性量纲不同,对分类结果造成影响,故对每个分类属性中的每一个属性值按照公式Y=(X-MinValue(X))/(MaxValue(X)-MinValue(X))进行归一化,其中X为某一个分类属性中对应的属性值,MinValue(X)表示这个分类属性中属性值里面的最小值,MaxValue(X)是这个分类属性中属性值的最大值,归一化之后的分类属性的属性值都集中在(0,1]之间。
算法平台,其用于接收训练样本数据,算法平台包括所述C4.5决策树算法,且为C4.5决策树算法提供算法接口,并训练C4.5决策树模型,且算法平台基于训练样本数据和C4.5决策树算法训练C4.5决策树模型。
本发明中的算法平台为Spark平台,Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架,其拥有Hadoop MapReduce所具有的优点。但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,基于Spark的内存计算,在计算速度方面更快,大大缩短了计算周期。因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark平台包括算法组件Spark MLlib(Machine Learning Library,机器学习库),Spark MLlib包括算法库,算法库内设有C4.5决策树算法,且Spark MLlib为C4.5决策树算法提供算法接口,并训练C4.5决策树模型。
C4.5决策树算法是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习,找到一个从属性值到类别的映射关系,并且这个映射能用于对新的类别未知的实体进行分类。
本发明中的算法平台基于C4.5决策树算法找出分类属性中信息增益率最大的分类属性,并将其作为待分裂的分类属性。算法平台还用于找出待分裂的分类属性的最佳分裂位置,并将训练样本数据在待分裂的分类属性的最佳分裂位置进行分裂,针对分裂后所得到的每一类数据,算法平台基于C4.5决策树算法在剩下的分类属性中各自再次确定待分裂的分类属性,再各自确定每一类数据各自的最佳分裂位置,最后对每一类数据在各自的最佳分裂位置按照再次确定待分裂的分类属性进行分裂,直到所有分类属性全部用完。
参见图2所示,本发明还提供一种基于C4.5决策树算法的特定用户挖掘系统挖掘特定用户的方法,包括以下步骤:
S1.样本选择模块选择用户样本,用户样本根据类标签分为付费用户样本和未付费用户样本;
本发明中的类标签有两个,即付费和未付费。
S2.行为属性统计模块统计用户样本的分类属性的属性值;
本发明中统计的用户的分类属性包括观看时长、观看次数、发弹幕数、送出虚礼礼物数、领取虚礼礼物数、关注房间数、关注分区数。
S3.样本处理模块将分类属性的属性值归一化处理得到训练样本数据D;
由于用户的分类属性的量纲不同。为了避免因分类属性量纲不同,对分类结果造成影响,故对每个分类属性中的每一个属性值按照公式Y=(X-MinValue(X))/(MaxValue(X)-MinValue(X))进行归一化,其中X为某一个分类属性中对应的属性值,MinValue(X)表示这个分类属性中属性值里面的最小值,MaxValue(X)是这个分类属性中属性值的最大值,归一化之后的分类属性的属性值都集中在(0,1]之间。
S4.算法平台接收训练样本数据D,并训练C4.5决策树模型;
本发明中的算法平台为Spark平台,Spark平台包括算法组件Spark MLlib,SparkMLlib包括算法库,算法库内设有所述C4.5决策树算法,且Spark MLlib为所述C4.5决策树算法提供算法接口,并训练C4.5决策树模型。参见图3所示,本发明中的算法平台训练C4.5决策树模型包括以下步骤:
S41.计算训练样本数据D的信息熵,其中pi表示第i个类别在整个训练样本数据中出现的概率,i=1,2,...m,m的值与类标签的数量相等;本发明中m的取值为2。
S42.记A为所有分类属性的属性集,分类属性Aj为属性集A中的一个元素,分类属性Aj将训练样本数据D分为v个不相交的子集{D1,D2...,Dv},计算按照分类属性Aj划分后的个子集的信息熵加权和,其中v的值与类标签的数量相等,Dj表示将D分为v类后第j类所对应的训练样本数据;本发明中v的取值为2。
S43.计算属性集A中的每一个分类属性的信息增益,
S44.计算分类属性A中的每一个分类属性的信息增益率,其中是考虑分裂信息的度量,其中v的值与类标签的数量相等,Dj表示将D分为v类后第j类所对应的训练样本数据;
S45.找出属性集A中信息增益率最大的分类属性,并将其作为待分裂的分类属性;
S46.将训练样本数据D中待分裂的分类属性的属性值按照递增排序得到一数据集,将数据集划分为N+1种不同的两个子数据集,对应N+1个划分点,对于位于第一个划分点和最后一个划分点中间的N-1个划分点,通过计算N-1对两两相邻属性值的平均值来确定其位置,并保证训练样本数据D中待分裂的分类属性的所有属性值位于第一个划分点和最后一个划分点之间。N+1个划分点将数据集划分为N+1种不同的两个子数据集,然后利用步骤S41-S43中所述的方式计算所有划分点的信息增益,将信息增益最大的划分点作为最佳分裂位置,然后将训练样本数据D按照待分裂的分类属性在最佳分裂位置分裂成与类标签的数量相等的类别;
本发明为了保证训练样本数据D中待分裂的分类属性的所有属性值位于第一个划分点和最后一个划分点之间,将第一个记录的属性值减1作为第一个划分点的位置,将最后一个记录的属性值加1作为最后一个划分点的位置。
S47.对于训练样本数据D按照待分裂的分类属性在最佳分裂位置分裂成的每一类数据,重复执行步骤S41-S46,在属性集A剩下的分类属性中再次确定待分裂的分类属性,再确定每一类数据各自的最佳分裂位置,最后对每一类数据在各自的最佳分裂位置按照再次确定待分裂的分类属性进行分裂,直到属性集A中的所有分类属性全部用完。
需要指出的是,重复执行步骤S41的过程中,其计算的是分裂后每一类数据的信息熵,而不是训练样本数据D的信息熵。
具体的,本发明的分类属性包括观看时长、观看次数、发弹幕数、送出虚礼礼物数、领取虚礼礼物数、关注房间数、关注分区数。若步骤S45确定了观看时长为待分裂的分类属性,则通过步骤S46确定最佳分裂位置,然后便将训练样本数据D按照待分裂的分类属性在最佳分裂位置分裂成的两类数据(因为本发明的类标签为2),然后针对这两类数据各自重复执行步骤S41-S46,此时在除观看时长外的分类属性中,再次确定这两类数据各自的待分裂的分类属性,然后再分别确定这两类数据各自的最佳分裂位置,然后完成分裂,分裂一直持续到所有分类属性全部用完为止。
S5.C4.5决策树模型训练完毕后,将新的用户的分类属性的属性值按步骤S3归一化后输入训练好的C4.5决策树模型,结束。
因为C4.5通过学习找到一个从属性值到类别的映射关系,并且这个映射能用于对新的类别未知的实体进行分类。故将新的用户数据按训练样本数据的格式输入训练好的C4.5决策树模型,就能得到预测的新用户的类别,得到用户兴趣度相关指标,从而判断其是否是特定用户。
本发明不局限于上述实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims (10)

1.一种基于C4.5决策树算法的特定用户挖掘系统,其特征在于,包括:
样本选择模块,其用于选择用户样本,所述用户样本根据类标签分为付费用户样本和未付费用户样本;
行为属性统计模块,其用于统计所述用户样本的分类属性的属性值;
样本处理模块,其用于将所述分类属性的属性值归一化处理作为训练样本数据;以及
算法平台,其用于接收所述训练样本数据,所述算法平台包括所述C4.5决策树算法,并为所述C4.5决策树算法提供算法接口,且所述算法平台基于所述训练样本数据和C4.5决策树算法训练C4.5决策树模型。
2.如权利要求1所述的基于C4.5决策树算法的特定用户挖掘系统,其特征在于:所述分类属性包括观看时长、观看次数、发弹幕数、送出虚礼礼物数、领取虚礼礼物数、关注房间数、关注分区数。
3.如权利要求1所述的基于C4.5决策树算法的特定用户挖掘系统,其特征在于:所述算法平台为Spark平台,所述Spark平台包括算法组件Spark MLlib,所述Spark MLlib包括算法库,所述算法库内设有所述C4.5决策树算法,且所述Spark MLlib为所述C4.5决策树算法提供算法接口。
4.如权利要求1所述的基于C4.5决策树算法的特定用户挖掘系统,其特征在于:所述算法平台基于C4.5决策树算法找出分类属性中信息增益率最大的分类属性,并将其作为待分裂的分类属性,所述算法平台还用于找出所述待分裂的分类属性的最佳分裂位置,并将所述训练样本数据在所述待分裂的分类属性的最佳分裂位置进行分裂,针对分裂后所得到的每一类数据,所述算法平台基于C4.5决策树算法在剩下的分类属性中各自再次确定待分裂的分类属性,再各自确定每一类数据各自的最佳分裂位置,最后对每一类数据在各自的最佳分裂位置按照再次确定待分裂的分类属性进行分裂,直到所有分类属性全部用完。
5.一种利用权利要求1所述的特定用户挖掘系统挖掘特定用户的方法,其特征在于,包括以下步骤:
S1.样本选择模块选择用户样本,用户样本根据类标签分为付费用户样本和未付费用户样本;
S2.行为属性统计模块统计用户样本的分类属性的属性值;
S3.样本处理模块将分类属性的属性值归一化处理得到训练样本数据D;
S4.算法平台接收训练样本数据D,并训练C4.5决策树模型;
S5.C4.5决策树模型训练完毕后,将新的用户的分类属性的属性值按步骤S3归一化处理后输入训练好的C4.5决策树模型,结束。
6.如权利要求5所述的挖掘特定用户的方法,其特征在于,所述训练C4.5决策树模型包括以下步骤:
S41.计算训练样本数据D的信息熵,其中pi表示第i个类别在训练样本数据D中出现的概率,i=1,2,...m,m的值与类标签的数量相等;
S42.记A为所有分类属性的属性集,分类属性Aj为属性集A中的一个元素,分类属性Aj将训练样本数据D分为v个不相交的子集{D1,D2...,Dv},计算按照分类属性Aj划分后的个子集的信息熵加权和,其中v的值与类标签的数量相等,Dj表示将D分为v类后第j类所对应的训练样本数据;
S43.计算属性集A中的每一个分类属性的信息增益,
S44.计算分类属性A中的每一个分类属性的信息增益率,其中是考虑分裂信息的度量,其中v的值与类标签的数量相等,Dj表示将D分为v类后第j类所对应的训练样本数据;
S45.找出属性集A中信息增益率最大的分类属性,并将其作为待分裂的分类属性;
S46.将训练样本数据D中待分裂的分类属性的属性值按照递增排序得到一数据集,将数据集划分为N+1种不同的两个子数据集,对应N+1个划分点,对于位于第一个划分点和最后一个划分点中间的N-1个划分点,通过计算N-1对两两相邻属性值的平均值来确定其位置,并保证待分裂的分类属性的所有属性值位于第一个划分点和最后一个划分点之间,根据N+1种不同的两个子数据集,计算所有划分点的信息增益,将信息增益最大的划分点作为最佳分裂位置,然后将训练样本数据D按照待分裂的分类属性在最佳分裂位置分裂成与类标签的数量相等的类别;
S47.对于训练样本数据D按照待分裂的分类属性在最佳分裂位置分裂成的每一类数据,重复执行步骤S41-S46,在属性集A剩下的分类属性中各自再次确定待分裂的分类属性,再各自确定每一类数据各自的最佳分裂位置,最后对每一类数据在各自的最佳分裂位置按照再次确定待分裂的分类属性进行分裂,直到属性集A中的所有分类属性全部用完。
7.如权利要求5所述的挖掘特定用户的方法,其特征在于:所述行为属性统计模块统计用户的观看时长、观看次数、送出虚礼礼物数、领取虚礼礼物数、关注房间数、关注分区数的数据。
8.如权利要求5所述的挖掘特定用户的方法,其特征在于:所述算法平台为Spark平台,所述Spark平台包括算法组件Spark MLlib,所述Spark MLlib包括算法库,所述算法库内设有所述C4.5决策树算法,且所述Spark MLlib为所述C4.5决策树算法提供算法接口并训练C4.5决策树模型。
9.如权利要求6所述的挖掘特定用户的方法,其特征在于:所述步骤S41中m的取值为2。
10.如权利要求6所述的挖掘特定用户的方法,其特征在于:所述步骤S42中v的取值为2。
CN201610573315.4A 2016-07-20 2016-07-20 基于c4.5决策树算法的特定用户挖掘系统及其方法 Pending CN106228398A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610573315.4A CN106228398A (zh) 2016-07-20 2016-07-20 基于c4.5决策树算法的特定用户挖掘系统及其方法
PCT/CN2017/080782 WO2018014610A1 (zh) 2016-07-20 2017-04-17 基于c4.5决策树算法的特定用户挖掘系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610573315.4A CN106228398A (zh) 2016-07-20 2016-07-20 基于c4.5决策树算法的特定用户挖掘系统及其方法

Publications (1)

Publication Number Publication Date
CN106228398A true CN106228398A (zh) 2016-12-14

Family

ID=57531576

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610573315.4A Pending CN106228398A (zh) 2016-07-20 2016-07-20 基于c4.5决策树算法的特定用户挖掘系统及其方法

Country Status (2)

Country Link
CN (1) CN106228398A (zh)
WO (1) WO2018014610A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845706A (zh) * 2017-01-19 2017-06-13 浙江工商大学 在线社交网络用户关系强度预测方法
CN107122390A (zh) * 2017-03-04 2017-09-01 华数传媒网络有限公司 基于用户群组的推荐系统构建方法
WO2018014610A1 (zh) * 2016-07-20 2018-01-25 武汉斗鱼网络科技有限公司 基于c4.5决策树算法的特定用户挖掘系统及其方法
CN107666615A (zh) * 2017-09-04 2018-02-06 广州虎牙信息科技有限公司 潜力主播用户的挖掘方法、装置及服务器
CN111199243A (zh) * 2019-12-19 2020-05-26 中国人民解放军战略支援部队信息工程大学 一种基于改进决策树的空中目标识别方法及系统
CN111752995A (zh) * 2020-06-30 2020-10-09 成都信息工程大学 一种学生数据挖掘系统及方法
CN112258338A (zh) * 2020-09-14 2021-01-22 陕西讯格信息科技有限公司 一种基于最近邻算法的基站费用自动化稽核方法
CN112348583A (zh) * 2020-11-04 2021-02-09 贝壳技术有限公司 用户偏好生成方法与生成系统
CN113760484A (zh) * 2020-06-29 2021-12-07 北京沃东天骏信息技术有限公司 数据处理的方法和装置

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112019000022T5 (de) * 2018-01-31 2019-10-24 Asml Netherlands B.V. Verfahren zum Kennzeichnen von Substraten auf der Basis von Prozessparametern
CN110197187A (zh) * 2018-02-24 2019-09-03 腾讯科技(深圳)有限公司 对用户流失进行预测的方法、设备、存储介质以及处理器
CN110674468B (zh) * 2019-09-25 2022-09-27 郑州轻工业学院 一种基于改进粗集算法的细纱断纱因素定量分析方法
CN111259933B (zh) * 2020-01-09 2023-06-13 中国科学院计算技术研究所 基于分布式并行决策树的高维特征数据分类方法及系统
CN111860946B (zh) * 2020-06-09 2023-08-04 广东电网有限责任公司 基于c4.5算法的防鸟装置有效性评价方法
CN112183604B (zh) * 2020-09-22 2024-05-28 国网江苏省电力有限公司营销服务中心 一种基于决策树的电能计量装置选型方法和系统
CN112183606A (zh) * 2020-09-23 2021-01-05 内蒙古电力(集团)有限责任公司乌海电业局 基于c4.5算法的电力系统故障识别分类方法及系统
CN112714080B (zh) * 2020-12-23 2023-10-17 上海观安信息技术股份有限公司 一种基于spark图算法的互连关系分类方法及系统
CN114925833B (zh) * 2022-04-20 2023-07-21 中国人民解放军91977部队 一种基于能力数据底图的目标状态规律知识挖掘方法
CN114662412B (zh) * 2022-05-23 2022-10-11 深圳市远湖科技有限公司 基于深度学习的服装设计方法、装置、设备及存储介质
CN115914141A (zh) * 2022-09-23 2023-04-04 暨南大学 一种基于p4硬件交换机的网络数据流分类预测方法
CN116010688A (zh) * 2022-12-12 2023-04-25 和元达信息科技有限公司 一种用户行为标签识别方法、系统、设备及存储介质
CN115600513B (zh) * 2022-12-16 2023-08-04 山东省地质矿产勘查开发局八〇一水文地质工程地质大队(山东省地矿工程勘察院) 一种岩溶塌陷监测预警及防控一体化信息化模拟研判系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567661B (zh) * 2010-12-31 2014-03-26 北京奇虎科技有限公司 基于机器学习的程序识别方法及装置
CN103853979B (zh) * 2010-12-31 2018-01-16 北京奇虎科技有限公司 基于机器学习的程序识别方法及装置
CN102214213B (zh) * 2011-05-31 2013-06-19 中国科学院计算技术研究所 一种采用决策树的数据分类方法和系统
CN102968447A (zh) * 2012-10-24 2013-03-13 西安工程大学 基于决策树算法的seo关键词竞争程度计算方法
CN104794195B (zh) * 2015-04-17 2018-04-06 南京大学 一种用于电信潜在换机用户发现的数据挖掘方法
CN106228398A (zh) * 2016-07-20 2016-12-14 武汉斗鱼网络科技有限公司 基于c4.5决策树算法的特定用户挖掘系统及其方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018014610A1 (zh) * 2016-07-20 2018-01-25 武汉斗鱼网络科技有限公司 基于c4.5决策树算法的特定用户挖掘系统及其方法
CN106845706A (zh) * 2017-01-19 2017-06-13 浙江工商大学 在线社交网络用户关系强度预测方法
CN107122390A (zh) * 2017-03-04 2017-09-01 华数传媒网络有限公司 基于用户群组的推荐系统构建方法
CN107122390B (zh) * 2017-03-04 2020-09-25 华数传媒网络有限公司 基于用户群组的推荐系统构建方法
CN107666615A (zh) * 2017-09-04 2018-02-06 广州虎牙信息科技有限公司 潜力主播用户的挖掘方法、装置及服务器
CN111199243A (zh) * 2019-12-19 2020-05-26 中国人民解放军战略支援部队信息工程大学 一种基于改进决策树的空中目标识别方法及系统
CN113760484A (zh) * 2020-06-29 2021-12-07 北京沃东天骏信息技术有限公司 数据处理的方法和装置
CN111752995A (zh) * 2020-06-30 2020-10-09 成都信息工程大学 一种学生数据挖掘系统及方法
CN112258338A (zh) * 2020-09-14 2021-01-22 陕西讯格信息科技有限公司 一种基于最近邻算法的基站费用自动化稽核方法
CN112348583A (zh) * 2020-11-04 2021-02-09 贝壳技术有限公司 用户偏好生成方法与生成系统
CN112348583B (zh) * 2020-11-04 2022-12-06 贝壳技术有限公司 用户偏好生成方法与生成系统

Also Published As

Publication number Publication date
WO2018014610A1 (zh) 2018-01-25

Similar Documents

Publication Publication Date Title
CN106228398A (zh) 基于c4.5决策树算法的特定用户挖掘系统及其方法
CN109087079B (zh) 数字货币交易信息分析方法
CN110223168B (zh) 一种基于企业关系图谱的标签传播反欺诈检测方法及系统
CN112308158A (zh) 一种基于部分特征对齐的多源领域自适应模型及方法
Guleria et al. Predicting student performance using decision tree classifiers and information gain
CN109218223B (zh) 一种基于主动学习的鲁棒性网络流量分类方法及系统
CN111383005B (zh) 数字货币流向追踪方法及装置
CN105760888A (zh) 一种基于属性聚类的邻域粗糙集集成学习方法
CN106294715A (zh) 一种基于属性约简的关联规则挖掘方法及装置
CN111754345A (zh) 一种基于改进随机森林的比特币地址分类方法
US11841839B1 (en) Preprocessing and imputing method for structural data
CN103617435A (zh) 一种主动学习图像分类方法和系统
CN107918657A (zh) 一种数据源的匹配方法和装置
Tian et al. MANE: Model-agnostic non-linear explanations for deep learning model
CN110737805B (zh) 图模型数据的处理方法、装置和终端设备
WO2023019698A1 (zh) 基于富上下文网络的高光谱图像分类方法
CN104679911B (zh) 一种基于离散弱相关的云平台决策森林分类方法
CN106168976A (zh) 一种基于朴素贝叶斯算法的特定用户挖掘方法及系统
CN106934410A (zh) 数据的分类方法及系统
CN112367273A (zh) 基于知识蒸馏的深度神经网络模型的流量分类方法及装置
CN103886030A (zh) 基于代价敏感决策树的信息物理融合系统数据分类方法
CN103957116A (zh) 一种云故障数据的决策方法及系统
WO2020024444A1 (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
CN113705099A (zh) 基于对比学习的社交平台谣言检测模型构建方法及检测方法
CN113641906A (zh) 基于资金交易关系数据实现相似目标人员识别处理的系统、方法、装置、处理器及其介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20161214