CN111242449A - 一种企业情报流失预测方法 - Google Patents

一种企业情报流失预测方法 Download PDF

Info

Publication number
CN111242449A
CN111242449A CN202010011876.1A CN202010011876A CN111242449A CN 111242449 A CN111242449 A CN 111242449A CN 202010011876 A CN202010011876 A CN 202010011876A CN 111242449 A CN111242449 A CN 111242449A
Authority
CN
China
Prior art keywords
training
data set
algorithm
layer
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010011876.1A
Other languages
English (en)
Inventor
杨冬豪
陈海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Cezhitong Technology Co Ltd
Original Assignee
Hangzhou Cezhitong Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Cezhitong Technology Co Ltd filed Critical Hangzhou Cezhitong Technology Co Ltd
Priority to CN202010011876.1A priority Critical patent/CN111242449A/zh
Publication of CN111242449A publication Critical patent/CN111242449A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Educational Administration (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种企业情报流失预测方法,包括系统获取数据集,将数据集划分为训练集和测试集,之后利用CatBoost、GBDT算法和加权投票算法,将所述训练集进行双层训练,输出分类预测模型的评价指标。使用双层融合的方法以及相适应的算法,提高企业情报流失预测模型的准确率和精确率,进一步的完善企业情报流失预测模型。

Description

一种企业情报流失预测方法
技术领域
本发明涉及数据处理领域,尤其涉及一种企业情报流失预测方法。
背景技术
时至今日,各类市场日益饱和且竞争激烈,属于行业巨头的市场份额越来越大,各行业企业家们以往关注的重点在于推出新颖的定制服务来吸引新客户,并将已经拥有的客户转换成忠诚客户。而研究表明发展一个新客户的成本远高于维护一个老客户的成本,所以预防老客户的流失是各企业家们必须重视的问题。
因此,客户流失预测技术对于企业挽留老客户和推出各种定制服务来说是十分重要的。比如电信企业,一个流失的客户如果不再使用运营商提供的服务,那么他就再也无法产生任何利润,这对于拥有千万级别数量客户的运营商而言,如果能降低百分之一的客户流失率,那将会带来可观的利润增长。及时并准确识别潜在的流失客户渐渐成为了各大行业巨头企业家们研究的重点。
在客户流失预测领域,机器学习的算法如强化学习算法的应用大幅提高了模型的准确率,但是单个算法在预测准确率上的提升还很有限,所以提升准确率和精确率是客户流失预测模型急需提高的地方。本发明采用双层融合结构以及相适用的算法,提高客户流失预测模型的准确率和精确率,进一步的完善客户流失预测模型。
发明内容
本发明提供的一种企业情报流失预测方法,旨在解决现有技术中存在准确率和精确率低的问题。
为实现上述目的,本发明采用以下技术方案:
本发明的一种企业情报流失预测方法,包括以下步骤:
获取数据集,将数据集划分为训练集和测试集;
利用CatBoost、GBDT算法和加权投票算法,将所述训练集进行双层训练,输出分类预测模型的评价指标。
获取数据集,将数据集划分为训练集和测试集,之后利用CatBoost、GBDT算法和加权投票算法,将所述训练集进行双层训练,输出分类预测模型的评价指标。使用双层融合的方法以及相适应的算法,提高客户流失预测模型的准确率和精确率,进一步的完善客户流失预测模型。
作为优选,所述利用CatBoost、GBDT算法和加权投票算法,将所述训练集进行双层训练,输出分类预测模型的评价指标,包括:
搭建分类预测模型双层结构,第一层通过相应算法对训练集进行训练,得到第一层数据集;
第二层通过相应算法对第一层数据集进行训练,得到分类预测模型的评价指标,其中GBDT算法是基学习器采用的Decision Tree的Gradient Boosting方法,GradientBoosting模型与Adaboost的形式一致,采用M个基学习器的线性组合得到最终模型:
Figure BDA0002357430260000021
其中m是模型迭代的步数,θm为固定参数。
作为优选,所述获取数据集,将数据集划分为训练集和测试集,经过训练、验证和测试方法,输出相对应的评估集和测试集。
一种企业情报流失预测装置,包括:
获取模块,获取数据集,将数据集划分为训练集和测试集;
计算模块,利用CatBoost、GBDT算法和加权投票算法,将所述训练集进行双层训练,输出分类预测模型的评价指标;
分析模块,将所述分类预测模型的评价指标与对比对象进行结果分析比较。
作为优选,所述计算模块包括:
第一层训练单元,搭建分类预测模型双层结构,第一层通过相应算法对数据集进行训练,得到第一层数据集;
第二层训练单元,第二层通过相应算法对第一层数据集进行训练,得到分类预测模型的评价指标,其中GBDT算法是基学习器采用的Decision Tree的Gradient Boosting方法,Gradient Boosting模型与Adaboost的形式一致,采用M个基学习器的线性组合得到最终模型:
Figure BDA0002357430260000031
其中m是模型迭代的步数,θm为固定参数。
作为优选,所述获取模块包括:
划分单元,获取数据集,将数据集划分为训练集和测试集;
输出单元,所述数据集经过训练、验证和测试方法,输出相对应的评估集和测试集。
一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如上述中任一项所述的一种企业情报流失预测方法。
一种存储有计算机程序的计算机可读存储介质,所述计算机程序使计算机执行时实现如上述中任一项所述的一种企业情报流失预测方法。
本发明具有如下有益效果:
系统获取数据集,将数据集划分为训练集和测试集,之后利用CatBoost、GBDT算法和加权投票算法,将所述训练集进行双层训练,输出分类预测模型的评价指标。使用双层融合的方法以及相适应的算法,提高客户流失预测模型的准确率和精确率,进一步的完善客户流失预测模型。
附图说明
图1是本发明实施例实现一种企业情报流失预测方法第一流程图;
图2是本发明实施例实现一种企业情报流失预测方法第二流程图;
图3是本发明实施例实现一种企业情报流失预测方法具体实施流程示意图;
图4是本发明实施例实现一种企业情报流失预测装置示意图;
图5是本发明实施例实现一种企业情报流失预测装置的计算模块示意图;
图6是本发明实施例实现一种企业情报流失预测装置的获取模块示意图;
图7是本发明实施例实现一种企业情报流失预测装置的具体实施流程示意图;
图8是本发明实施例实现一种企业情报流失预测方法的一种电子设备示意图。
具体实施方式
下面将结合附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在介绍本发明技术方案之前,示例性的介绍一种本发明技术方案可能适用的场景。
示例性的:客户流失预测模型中训练集进行训练是客户流失预测模型中的一个工序。对训练集进行相应的计算处理获得模型分类预测模型的评价指标,以利于后续的分析分析对比。
客户流失预测模型中的训练单元是必不可少,示例性的,训练集经过训练单元输出相应数据进行分析对比,提高客户流失预测模型的准确率和精确率,完善客户流失预测模型。
示例性的,训练单元采用不同的算法会对客户流失预测模型的准确率和精确率产生一定的影响,为了提高客户流失预测模型的准确率和精确率,可能的,采用双层融合模型以及CatBoost、GBDT算法和加权投票算法进行处理。
显而易见的,现有技术中,客户流失预测模型采用随机森林算法,由此造成的在一些噪音较大的分类或回归问题上会过拟合,导致客户流失预测模型的准确率和精确率偏低,影响预测结果。
使用CatBoost、GBDT算法和加权投票算法和双层融合模型进行处理可以提高客户流失预测模型的准确率和精确率,进一步完善客户流失预测模型。
实施例1
如图1所示,一种企业情报流失预测方法,包括以下步骤:
S100、获取数据集,将数据集划分为训练集和测试集;
S110、利用CatBoost、GBDT算法和加权投票算法,将所述训练集进行双层训练,输出分类预测模型的评价指标;
根据实施例1可知,系统获取数据集,将数据集划分为训练集和测试集,之后利用CatBoost、GBDT算法和加权投票算法,将所述训练集进行双层训练,输出分类预测模型的评价指标。此方法可以提高客户流失预测模型的准确率和精确率,进一步完善客户流失预测模型。
实施例2
如图2所示,一种企业情报流失预测方法,包括:
S210、获取数据集,将数据集划分为训练集和测试集;
S220、搭建分类预测模型双层结构,第一层通过相应算法对数据集进行训练,得到第一层数据集;
S230、第二层通过相应算法对第一层数据集进行训练,得到分类预测模型的评价指标,其中GBDT算法是基学习器采用的Decision Tree的Gradient Boosting方法,Gradient Boosting模型与Adaboost的形式一致,采用M个基学习器的线性组合得到最终模型:
Figure BDA0002357430260000061
其中m是模型迭代的步数,θm为固定参数。
根据实施例2可知,搭建分类预测模型双层结构,训练集依次经过第一层和第二层,第一层通过相应算法对训练集进行训练得到第二训练集,同时测试集进行预测得到第二测试集,第一层数据集包括第二训练集和第二测试集,第二层通过相应算法对第一层数据集进行训练,得到分类预测模型的评价指标,分类预测模型的评价指标包括准确率、精准率、召回率和F1值这四个指标。使用双层融合的方法以及相适应的算法,提高客户流失预测模型的准确率和精确率,进一步的完善客户流失预测模型。
实施例3
如图3所示,一种具体的实施方式可为:
S310、获取数据集,将数据集划分为训练集和测试集;
将数据集划分为训练集和测试集(假设训练集为999条数据,测试集为210条数据),然后一级分类模型中的单个基础分类器1进行3折交叉验证,使用训练集中的666条作为喂养集,剩余333条作为验证集。
S320、搭建分类预测模型双层结构,第一层通过相应算法对数据集进行训练,利用CatBoost算法和GBDT算法计算得到第一层数据集;
第一层Stacking层通过CatBoost和GBDT算法对数据集进行训练。每次验证使用666条数据训练出一个模型,再用训练出的模型对验证集进行验证得到333条数据,同时对测试集进行预测,得到210条数据。这样经过3次交叉检验,可以得到新特征也就是3*333条预测结果和3*210条测试数据集的预测结果。
接下来会将3*333条预测结果拼接成999行1列的矩阵,标记为训练数据集A1。而对于3*210行的测试数据集的预测结果进行加权平均,得到一个210行1列的矩阵,测试数据集B1。这是单个基础分类器在数据集上的预测结果,如果再集成两个基础分类器,比如基础分类器2、基础分类器3,那么最后会得到A1、A2、A3、B1、B2、B3一共六个矩阵。
最后将A1、A2、A3并列在一起成999行3列的矩阵作为第二训练数据集,B1、B2、B3合并在一起成210行3列的矩阵作为第二测试数据集,第一层数据集包括第二训练数据集和第二测试数据集,让次级分类模型基于第一层数据集再训练。
其中CatBoost算法的核心是对称完全二叉树思想,即每一次只划分出两条路径,划分路径的顺序是随机的,其公式为:
Figure BDA0002357430260000071
增加了先验值P和参数a>0,即为先验的权重,添加先验有助于减少从低频类别获得的噪声。
其中GBDT算法是基学习器采用的Decision Tree的Gradient Boosting方法。Gradient Boosting模型与Adaboost的形式一致,采用M个基学习器的线性组合得到最终模型:
Figure BDA0002357430260000081
首先确定初始模型,定义初始基学习器f0(x),当模型迭代到第m步时:
fm(x)=fm-1(x)+γmT(x;θm)
通过最小化损失来确定参数θm的值:
Figure BDA0002357430260000082
S330、第二层通过相应算法对第一层数据集进行训练,得到分类预测模型的评价指标。
第二层Voting层搭建好后,对比实验了文章选取的3个基础分类器不同权重下的准确率,最终确定基础分类器权重设置为{{GBDT:1},{CatBoost:2}}。准确率较高的基础分类器可以具有较大的权重值。最终根据计算后概率最高的类确定样本的判定结果。Voting层通过加权投票算法对第一层数据集进行训练,得到分类预测模型的评价指标,分类预测模型的评价指标使用准确率,精准率,召回率和F1值这四个指标。
实施例4
如图4所示,一种企业情报流失预测装置,包括:
获取模块10,获取数据集,将数据集划分为训练集和测试集;
计算模块20,利用CatBoost、GBDT算法和加权投票算法,将所述训练集进行双层训练,输出分类预测模型的评价指标;
分析模块30,将所述分类预测模型的评价指标与对比对象进行结果分析比较。
上述装置的一种实施方式可为:获取模块10获取数据集,将数据集划分为训练集和测试集,计算模块20利用CatBoost、GBDT算法和加权投票算法,将所述训练集进行双层训练,输出分类预测模型的评价指标,最后,分析模块30将所述分类预测模型的评价指标与对比对象进行结果分析比较。
实施例5
如图5所示,一种企业情报流失预测装置的计算模块20包括:
第一层训练单元22,搭建分类预测模型双层结构,第一层通过相应算法对训练集进行训练,得到第一层训练数据集;
第二层训练单元24,第二层通过相应算法对训练数据集进行训练,得到分类预测模型的评价指标,其中GBDT算法是基学习器采用的Decision Tree的Gradient Boosting方法,Gradient Boosting模型与Adaboost的形式一致,采用M个基学习器的线性组合得到最终模型:
Figure BDA0002357430260000091
其中m是模型迭代的步数,θm为固定参数。
上述装置的计算模块20的一种实施方式可为:第一层训练单元22搭建分类预测模型双层结构,训练集依次经过第一层和第二层,第一层通过相应算法对训练集进行训练得到第二训练集,同时测试集进行预测得到第二测试集,第一层数据集包括第二训练集和第二测试集,第二层训练单元24第二层通过相应算法对第一层数据集进行训练,得到分类预测模型的评价指标。
其中GBDT算法是基学习器采用的Decision Tree的Gradient Boosting方法,Gradient Boosting模型与Adaboost的形式一致,采用M个基学习器的线性组合得到最终模型:
Figure BDA0002357430260000092
其中m是模型迭代的步数,θm为固定参数,
确定初始模型,定义初始基学习器f0(x),当模型迭代到第m步时:
fm(x)=fm-1(x)+γmT(x;θm)
通过最小化损失来确定参数θm的值:
Figure BDA0002357430260000101
分类预测模型的评价指标包括准确率、精准率、召回率和F1值这四个指标。
实施例6
如图6所示,一种企业情报流失预测装置的获取模块10包括:
划分单元12,获取数据集,将数据集划分为训练集和测试集;
输出单元14,所述数据集经过训练、验证和测试方法,输出相对应的评估集和测试集。
上述装置的获取模块10的一种实施方式可为:,由识别单元12获取数据集,将数据集划分为训练集和测试集,然后选择单元14所述数据集经过训练、验证和测试方法,输出相对应的评估集和测试集。
实施例7
如图7所示,一种具体的实施方式可为:
S710、获取数据集,将数据集划分为训练集和测试集;
将数据集划分为训练集和测试集(假设训练集为999条数据,测试集为210条数据),然后一级分类模型中的单个基础分类器1进行3折交叉验证,使用训练集中的666条作为喂养集,剩余333条作为验证集。
S720、搭建分类预测模型双层结构,第一层通过相应算法对数据集进行训练,利用CatBoost算法和GBDT算法计算得到第一层数据集;
第一层Stacking层通过CatBoost和GBDT算法对数据集进行训练。每次验证使用666条数据训练出一个模型,再用训练出的模型对验证集进行验证得到333条数据,同时对测试集进行预测,得到210条数据。这样经过3次交叉检验,可以得到新特征也就是3*333条预测结果和3*210条测试数据集的预测结果。
接下来会将3*333条预测结果拼接成999行1列的矩阵,标记为训练数据集A1。而对于3*210行的测试数据集的预测结果进行加权平均,得到一个210行1列的矩阵,测试数据集B1。这是单个基础分类器在数据集上的预测结果,如果再集成两个基础分类器,比如基础分类器2、基础分类器3,那么最后会得到A1、A2、A3、B1、B2、B3一共六个矩阵。
最后将A1、A2、A3并列在一起成999行3列的矩阵作为第二训练数据集,B1、B2、B3合并在一起成210行3列的矩阵作为第二测试数据集,第一层数据集包括第二训练数据集和第二测试数据集,让次级分类模型基于第一层数据集再训练。
其中CatBoost算法的核心是对称完全二叉树思想,即每一次只划分出两条路径,划分路径的顺序是随机的,其公式为:
Figure BDA0002357430260000111
增加了先验值P和参数a>0,即为先验的权重,添加先验有助于减少从低频类别获得的噪声。
其中GBDT算法是基学习器采用的Decision Tree的Gradient Boosting方法,Gradient Boosting模型与Adaboost的形式一致,采用M个基学习器的线性组合得到最终模型:
Figure BDA0002357430260000112
其中m是模型迭代的步数,θm为固定参数,
确定初始模型,定义初始基学习器f0(x),当模型迭代到第m步时:
fm(x)=fm-1(x)+γmT(x;θm)
通过最小化损失来确定参数θm的值:
Figure BDA0002357430260000121
S730、第二层通过相应算法对第一层数据集进行训练,得到分类预测模型的评价指标。
第二层Voting层搭建好后,对比实验了文章选取的3个基础分类器不同权重下的准确率,最终确定基础分类器权重设置为{{GBDT:1},{CatBoost:2}}。准确率较高的基础分类器可以具有较大的权重值。最终根据计算后概率最高的类确定样本的判定结果。Voting层通过加权投票算法对第一层数据集进行训练,得到分类预测模型的评价指标,分类预测模型的评价指标使用准确率,精准率,召回率和F1值这四个指标。
实施例8
如图6所示,一种电子设备,包括存储器801和处理器802,所述存储器801用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器802执行以实现上述的一种企业情报流失预测方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的电子设备的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
一种存储有计算机程序的计算机可读存储介质,所述计算机程序使计算机执行时实现如上述的一种企业情报流失预测方法。
示例性的,计算机程序可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器801中,并由处理器802执行,以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在计算机设备中的执行过程。
计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括,但不仅限于,存储器801、处理器802。本领域技术人员可以理解,本实施例仅仅是计算机设备的示例,并不构成对计算机设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件,例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。
处理器802可以是中央处理单元(CentralProcessingUnit,CPU),还可以是其他通用处理器802、数字信号处理器802(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现成可编程门阵列(Field-ProgRAM503mableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器802可以是微处理器802或者该处理器802也可以是任何常规的处理器802等。
存储器801可以是计算机设备的内部存储单元,例如计算机设备的硬盘或内存。存储器801也可以是计算机设备的外部存储设备,例如计算机设备上配备的插接式硬盘,智能存储卡(SmartMediaCard,SMC),安全数字(SecureDigital,SD)卡,闪存卡(FlashCard)等。进一步地,存储器801还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器801用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器501还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述仅为本发明的具体实施例,但本发明的技术特征并不局限于此,任何本领域的技术人员在本发明的领域内,所作的变化或修饰皆涵盖在本发明的专利范围之中。

Claims (8)

1.一种企业情报流失预测方法,其特征在于,包括以下步骤:
获取数据集,将数据集划分为训练集和测试集;
利用CatBoost、GBDT算法和加权投票算法,将所述训练集进行双层训练,输出分类预测模型的评价指标。
2.根据权利要求1所述的一种企业情报流失预测方法,其特征在于,所述利用CatBoost、GBDT算法和加权投票算法,将所述训练集进行双层训练,输出分类预测模型的评价指标,包括:
搭建分类预测模型双层结构,第一层通过相应算法对数据集进行训练,得到第一层数据集;
第二层通过相应算法对第一层数据集进行训练,得到分类预测模型的评价指标,其中GBDT算法是基学习器采用的Decision Tree的Gradient Boosting方法,GradientBoosting模型与Adaboost的形式一致,采用M个基学习器的线性组合得到最终模型:
Figure FDA0002357430250000011
其中m是模型迭代的步数,θm为固定参数。
3.根据权利要求2所述的一种企业情报流失预测方法,其特征在于,所述获取数据集,将数据集划分为训练集和测试集,经过训练、验证和测试方法,输出相对应的评估集和测试集。
4.一种企业情报流失预测装置,其特征在于,包括:
获取模块,获取数据集,将数据集划分为训练集和测试集;
计算模块,利用CatBoost、GBDT算法和加权投票算法,将所述训练集进行双层训练,输出分类预测模型的评价指标。
5.根据权利要求4所述的一种企业情报流失预测装置,其特征在于,所述计算模块包括:
第一层训练单元,搭建分类预测模型双层结构,第一层通过相应算法对数据集进行训练,得到第一层数据集;
第二层训练单元,第二层通过相应算法对第一层数据集进行训练,得到分类预测模型的评价指标,其中GBDT算法是基学习器采用的Decision Tree的Gradient Boosting方法,Gradient Boosting模型与Adaboost的形式一致,采用M个基学习器的线性组合得到最终模型:
Figure FDA0002357430250000021
其中m是模型迭代的步数,θm为固定参数。
6.根据权利要求5所述的一种企业情报流失预测装置,其特征在于,所述获取模块包括:
划分单元,获取数据集,将数据集划分为训练集和测试集;
输出单元,所述数据集经过训练、验证和测试方法,输出相对应的评估集和测试集。
7.一种电子设备,其特征在于,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如权利要求1~3中任一项所述的一种企业情报流失预测方法。
8.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序使计算机执行时实现如权利要求1~3中任一项所述的一种企业情报流失预测方法。
CN202010011876.1A 2020-01-07 2020-01-07 一种企业情报流失预测方法 Pending CN111242449A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010011876.1A CN111242449A (zh) 2020-01-07 2020-01-07 一种企业情报流失预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010011876.1A CN111242449A (zh) 2020-01-07 2020-01-07 一种企业情报流失预测方法

Publications (1)

Publication Number Publication Date
CN111242449A true CN111242449A (zh) 2020-06-05

Family

ID=70879890

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010011876.1A Pending CN111242449A (zh) 2020-01-07 2020-01-07 一种企业情报流失预测方法

Country Status (1)

Country Link
CN (1) CN111242449A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537576A (zh) * 2021-06-25 2021-10-22 合肥工业大学 用于预测上市企业财务困境的方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140089233A1 (en) * 2012-03-06 2014-03-27 Koodbee, Llc Prediction processing system and method of use and method of doing business
CN109255629A (zh) * 2018-08-22 2019-01-22 阳光财产保险股份有限公司 一种客户分群方法及装置、电子设备、可读存储介质
CN110322085A (zh) * 2018-03-29 2019-10-11 北京九章云极科技有限公司 一种客户流失预测方法和装置
CN110458324A (zh) * 2019-07-04 2019-11-15 重庆金融资产交易所有限责任公司 风险概率的计算方法、装置和计算机设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140089233A1 (en) * 2012-03-06 2014-03-27 Koodbee, Llc Prediction processing system and method of use and method of doing business
CN110322085A (zh) * 2018-03-29 2019-10-11 北京九章云极科技有限公司 一种客户流失预测方法和装置
CN109255629A (zh) * 2018-08-22 2019-01-22 阳光财产保险股份有限公司 一种客户分群方法及装置、电子设备、可读存储介质
CN110458324A (zh) * 2019-07-04 2019-11-15 重庆金融资产交易所有限责任公司 风险概率的计算方法、装置和计算机设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
刘嘉穗;: "基于Catboost算法的优惠券个性化投放" *
叶志宇;冯爱民;高航;: "基于深度LightGBM集成学习模型的谷歌商店顾客购买力预测" *
孙延华;张冬杰;曾庆维;金健;陈桓;姚小龙;: "基于GBRT树模型分位数回归预测的CPFR补货方法" *
李为康;杨小兵;: "一种基于双层融合结构的客户流失预测模型" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537576A (zh) * 2021-06-25 2021-10-22 合肥工业大学 用于预测上市企业财务困境的方法及系统

Similar Documents

Publication Publication Date Title
Becker et al. CNN architecture comparison for radio galaxy classification
CN111242358A (zh) 一种双层结构的企业情报流失预测方法
CN109446430A (zh) 产品推荐的方法、装置、计算机设备及可读存储介质
US11182804B2 (en) Segment valuation in a digital medium environment
CN110796171A (zh) 机器学习模型的未分类样本处理方法、装置及电子设备
Soleimani-Babakamali et al. A general framework for supervised structural health monitoring and sensor output validation mitigating data imbalance with generative adversarial networks-generated high-dimensional features
CN112434884A (zh) 一种供应商分类画像的建立方法及装置
CN112420125A (zh) 分子属性预测方法、装置、智能设备和终端
CN108830302B (zh) 一种图像分类方法、训练方法、分类预测方法及相关装置
CN112560463B (zh) 文本多标注方法、装置、设备及存储介质
CN114692889A (zh) 用于机器学习算法的元特征训练模型
CN110069558A (zh) 基于深度学习的数据分析方法及终端设备
CN113591881A (zh) 基于模型融合的意图识别方法、装置、电子设备及介质
CN111242449A (zh) 一种企业情报流失预测方法
US8972307B1 (en) Method and apparatus for machine learning
CN116049733A (zh) 基于神经网络的效能评估方法、系统、设备与存储介质
CN110544166A (zh) 样本生成方法、装置及存储介质
CN113010687B (zh) 一种习题标签预测方法、装置、存储介质以及计算机设备
CN111709479B (zh) 一种图像分类方法和装置
US11514311B2 (en) Automated data slicing based on an artificial neural network
Gomez et al. Computing and evaluating saliency maps for image classification: a tutorial
Ärje et al. Breaking the curse of dimensionality in quadratic discriminant analysis models with a novel variant of a Bayes classifier enhances automated taxa identification of freshwater macroinvertebrates
CN113255806A (zh) 样本特征确定方法、样本特征确定装置和电子设备
CN116662160B (zh) 基于代价敏感宽度学习的软件缺陷预测方法及处理装置
CN110889462B (zh) 一种数据处理方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200605

RJ01 Rejection of invention patent application after publication