CN110232400A - 一种梯度提升决策神经网络分类预测方法 - Google Patents
一种梯度提升决策神经网络分类预测方法 Download PDFInfo
- Publication number
- CN110232400A CN110232400A CN201910365319.7A CN201910365319A CN110232400A CN 110232400 A CN110232400 A CN 110232400A CN 201910365319 A CN201910365319 A CN 201910365319A CN 110232400 A CN110232400 A CN 110232400A
- Authority
- CN
- China
- Prior art keywords
- classification
- neural network
- sample
- layer
- tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种梯度提升决策神经网络分类预测方法,属于大数据分析以及机器学习分类预测技术领域。首先,根据被预测对象的特征,建立数据样本集,并将此数据样本集中70%‑90%的样本作为训练集,10%‑30%的样本作为测试集。其次,提出梯度提升决策神经网络分类预测方法,对上述数据样本集进行训练和测试。优点在于,通过梯度提升树的特征选择和特征扩充的功能,增加样本的属性特征,解决现存算法处理少特征数据样本时所存在的预测精度低的难题。
Description
技术领域
本发明属于大数据分析以及机器学习分类预测技术领域,特别是提供了一种梯度提升决策神经网络分类预测方法,适用于解决各种分类与回归问题,可应用于数据分析、评价与故障预测领域。
背景技术
近年来,人工智能得到了空前的发展,各类智能算法如机器学习、深度学习、神经网络等得到了广泛研究和应用,并取得了不错的成绩。然而,随着数据量的增多和用户对数据预测性能要求的不断提高,现存预测算法已无法满足上述要求,迫切需要对现有算法的改进和提出新的预测算法。
集成学习不是单独的机器学习方法,而是通过构建并结合多个机器学习器来完成任务,集成学习可以用于分类问题集成、回归问题集成、特征选取集成、异常点检测集成等方面。其思想是对于训练数据集,我们通过训练若干个个体学习器,通过一定的结合策略形成一个强学习器,以达到博采众长的目的。梯度提升决策树是一种迭代的决策树算法,由多棵决策树组成,所有树的结论累加起来作为最终答案。梯度提升树的基分类器一般为分类与回归树,通过采用不同的损失函数,可以解决不同的分类或者回归问题。梯度提升树是串行结构,目的在于减少预测结果的偏差,它和随机森林不同,随机森林是并行的,在于减少预测结果的方差,随机森林过于随机,而且噪声过大时预测会容易过拟合,在现实生活中大多数的数据都有比较大的噪声,所以在这里不采用随机森林模型,而采用梯度提升树模型。
神经网络是由大量处理单元互联组成的非线性、自适应信息处理系统。它是在现代神经科学研究成果的基础上提出的,试图通过模拟大脑神经网络处理、记忆信息的方式进行信息处理。人工神经网络具有四个基本特征:非线性,非局限性,非常定性,非凸性。神经网络是一种运算模型,由大量的节点(或称神经元)之间相互联接构成。每个节点代表一种特定的输出函数,称为激励函数。每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重,这相当于人工神经网络的记忆。网络的输出则依网络的连接方式,权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近,也可能是对一种逻辑策略的表达。
发明内容
本发明的目的在于提供一种梯度提升决策神经网络分类预测方法,解决现存预测算法在处理少特征样本分类预测时的低准确率难题。
本发明的技术方案是:首先,根据被预测对象的特征,建立数据样本集,并将此数据样本集中70%-90%的样本作为训练集,10%-30%的样本作为测试集。其次,提出梯度提升决策神经网络分类预测方法,对上述数据样本集进行训练和测试,具体方案如下:
步骤1、将上述数据样本集中的90%作为训练样本,放入梯度提升树模型中进行训练,梯度提升树是由一系列分类与回归树集成的,所以可以统计每个样本落在每棵分类与回归树树叶子节点的位置,对于每棵树,对该位置记为1,其余叶子节点记为0,即独热编码。假设有n棵树,每棵树深度为m,则每个样本可增加的特征数为:n*2m-1。
步骤2、将步骤1中的特征数据通过梯度提升树计算每个特征的重要程度。重要程度计算如下:对于每个特征,计算梯度提升树中所有分类与回归树每个分支是否选择该特征的总和。这样可以得到每个特征的重要系数,根据实际情况将重要系数比较低,且其和不足10%的特征去掉,留下其余的特征,从而提高后续的预测准确率。
步骤3、将步骤2中得到的新的数据集输入到神经网络模型中,神经网络是一种多层的前馈神经网络,其主要特点是:信号是前向传播的,误差是反向传播的。所以神经网络主要分为两个阶段,第一个阶段是信号的前向传播,从输入层经过隐含层,最后达到输出层;第二阶段是误差的反向传播,从输出层到隐含层,最后进入输入层,依次调节隐含层到输出层的权重和偏置、隐含层之间的权重和偏置以及输入层到隐含层的权重和偏置。本研究中神经网络采用三层隐含层,一层输入层和一层输出层,激活函数采用 Sigmoid函数,Sigmoid函数常被用作神经网络的阈值函数,将变量映射到0,1之间(简记Sigmoid),如图2。
步骤4、模型的评估。采用数据样本中除了训练样本以外的数据集作为测试样本,验证模型的准确性。对于二分类问题,可以采用如下评估方法:
准确率:
召回率:
F1值:
其中,真正例(TP):真实类别为正例,预测类别为正例,
假正例(FP):真实类别为负例,预测类别为正例,
假负例(FN):真实类别为正例,预测类别为负例,
真负例(TN):真实类别为负例,预测类别为负例。
对于多分类任务,可以采用采用混淆矩阵的方法评估。混淆矩阵的每一列代表预测类别,每一列的总数表示预测为该类别的数据的数目,每一行代表了数据的真是归属类别,每一行的数据总数表示该类别的实例的数目。
本发明的优点在于:
针对具有特征属性少的数据样本的高精度分类预测问题,提出了一种梯度提升决策神经网络分类预测方法,较大提升了预测能力,解决了现存算法处理此类问题时的困难,为各行各业提供了一种新的数据处理和预测方法。
附图说明
图1为样本编码样例图。
图2为预测函数图
具体实施方式
下面将本发明应用于癌症数据库的分类分析与处理中,说明其应用方法和有效性。以事先处理好的三万用户的特征为训练数据,预测结果分为2类,本发明将详细说明的实施方法,因为该类数据的特征之间独立同分布,而且数据为离散变量,符合本发明算法的大前提条件。
步骤1、梯度提升树中基分类器的选择:线性分类器和分类与回归树树,由于数据是非线性的,所以使用分类与回归树树的非线性特性更强。对所有数据使用梯度提升树进行训练,学习率为0.2,分类与回归树树的深度为3,树的个数为400,每个样本都可以落在每棵树的某个叶子节点中。如图1为一个样本落在一棵树上的编码。
步骤2、分类与回归树树在分支的时候会基于基尼指数大小进行特征选择,每分支一次选择一个特征。给定数据共有十二个特征,可以统计在400颗树中每个特征被选择的次数总和,如表1。由表1可知S8、S9、S10的重要系数很低,可以去掉,只用前9 个特征进行训练。S1~S12表示为12个特征。
表1:特征重要程度系数统计
特征 | S1 | S2 | S3 | S4 | S5 | S6 | S7 | S8 | S9 | S10 | S11 | S12 |
权重 | 0.329 | 0.27 | 0.12 | 0.076 | 0.06 | 0.02 | 0.019 | 0.005 | 0.0007 | 0.008 | 0.034 | 0.045 |
步骤3、将步骤1中编号的码和步骤2中选好的特征结合起来组成新的特征,这样原3万个数据集的特征维数扩增了。将新的数据集划分为训练集(70%)和测试集(30%),将训练集放入神经网络进行数据训练,神经网络输出层采用一个神经元,0表示没有得病,1表示得病。
步骤4、模型的评估,本发明采用梯度提升树和神经网络模型融合的方法对数据进行了准确率预测,同时对比了采用单模型的梯度提升树、逻辑回归以及支持向量机模型的预测准确率如表2。(支持向量机是一种以几何间隔最大化为目标的分类模型)
表2:模型准确率对比
预测模型 | 准确率 |
逻辑回归 | 0.764 |
支持向量机 | 0.773 |
梯度提升树 | 0.791 |
梯度提升树和神经网络融合模型 | 0.820 |
步骤5、根据表2可以看出采用梯度提升树和神经网络融合模型后准确率有显著的提高。
综上所述,利用模型的优势进行融合,相比单模型,预测结果要好很多,在改进方面,结果评估可以用曲线模型更加准确。本发明采用了梯度提升树和神经网络模型的融合,应用于特征不相关的数据预测,大大提高了预测的准确率,提高企业的工作效率。
Claims (1)
1.一种梯度提升决策神经网络分类预测方法,其特征在于,具体方案如下:
步骤1、首先建立数据样本集,然后将其90%的样本集作为训练样本,放入梯度提升树模型中进行训练,梯度提升树是由一系列分类与回归树集成的,统计每个样本落在每棵分类与回归树树叶子节点的位置,对于每棵树,对该位置记为1,其余叶子节点记为0,即独热编码;假设有n棵树,每棵树深度为m,则每个样本增加的特征数为:n*2m-1;
步骤2、将步骤1中的特征数据通过梯度提升树计算每个特征的重要程度,重要程度计算如下:对于每个特征,计算梯度提升树中所有分类与回归树树每个分支是否选择该特征的总和;得到每个特征的重要系数,根据实际情况将重要系数比较低且其和不足10%的特征去掉,留下其余特征,从而提高后续的预测准确率;
步骤3、将步骤2中得到的新的数据集输入到神经网络模型中,神经网络采用三层隐含层,一层输入层和一层输出层,激活函数采用Sigmoid函数,Sigmoid函数常被用作神经网络的阈值函数,将变量映射到0,1之间,简记Sigmoid;
神经网络是一种多层的前馈神经网络,信号是前向传播的,误差是反向传播的;神经网络分为两个阶段,第一个阶段是信号的前向传播,从输入层经过隐含层,最后达到输出层;第二阶段是误差的反向传播,从输出层到隐含层,最后进入输入层,依次调节隐含层到输出层的权重和偏置、隐含层之间的权重和偏置以及输入层到隐含层的权重和偏置;
步骤4、模型的评估。采用数据样本中除了训练样本以外的数据集作为测试样本,验证模型的准确性。对于二分类问题,采用如下评估方法:
准确率:
召回率:
F1值:
其中,真正例TP:真实类别为正例,预测类别为正例,
假正例FP:真实类别为负例,预测类别为正例,
假负例FN:真实类别为正例,预测类别为负例,
真负例TN:真实类别为负例,预测类别为负例;
对于多分类任务,采用混淆矩阵的方法评估,混淆矩阵的每一列代表预测类别,每一列的总数表示预测为该类别的数据的数目,每一行代表了数据的真是归属类别,每一行的数据总数表示该类别的实例的数目。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910365319.7A CN110232400A (zh) | 2019-04-30 | 2019-04-30 | 一种梯度提升决策神经网络分类预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910365319.7A CN110232400A (zh) | 2019-04-30 | 2019-04-30 | 一种梯度提升决策神经网络分类预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110232400A true CN110232400A (zh) | 2019-09-13 |
Family
ID=67861093
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910365319.7A Pending CN110232400A (zh) | 2019-04-30 | 2019-04-30 | 一种梯度提升决策神经网络分类预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110232400A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111522743A (zh) * | 2020-04-17 | 2020-08-11 | 北京理工大学 | 一种基于梯度提升树支持向量机的软件缺陷预测方法 |
CN111583031A (zh) * | 2020-05-15 | 2020-08-25 | 上海海事大学 | 一种基于集成学习的申请评分卡模型建立方法 |
CN112382382A (zh) * | 2020-10-23 | 2021-02-19 | 北京科技大学 | 一种代价敏感的集成学习分类方法及系统 |
CN112884215A (zh) * | 2021-02-02 | 2021-06-01 | 国网甘肃省电力公司信息通信公司 | 一种基于梯度增强树人口预测模型的参数优化方法 |
CN113159447A (zh) * | 2021-05-12 | 2021-07-23 | 中国人民解放军陆军工程大学 | 一种激光雷达电磁环境效应预测方法及系统 |
CN113296947A (zh) * | 2021-05-24 | 2021-08-24 | 中山大学 | 基于改进XGBoost模型的资源需求预测方法 |
CN114169612A (zh) * | 2021-12-09 | 2022-03-11 | 浙江百世技术有限公司 | 基于梯度提升决策树和神经网络的货量预测方法及系统 |
CN115553777A (zh) * | 2022-11-02 | 2023-01-03 | 济南大学 | 一种非接触式精神压力检测方法及系统 |
CN115664910A (zh) * | 2022-11-14 | 2023-01-31 | 西安睿奥电磁环境科技有限公司 | 基于Resnet-LSTM的信号调制分类方法与系统 |
CN115964483A (zh) * | 2022-07-20 | 2023-04-14 | 东南大学 | 基于神经网络的高速公路养护大数据分类决策方法 |
CN116417070A (zh) * | 2023-04-17 | 2023-07-11 | 齐鲁工业大学(山东省科学院) | 一种基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法 |
CN116651306A (zh) * | 2023-08-01 | 2023-08-29 | 山西中科冶金建设有限公司 | 一种智能焦煤配比系统 |
CN117289141A (zh) * | 2023-11-22 | 2023-12-26 | 深圳市麦迪瑞科技有限公司 | 基于人工智能的电动自行车充电状态监测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107193804A (zh) * | 2017-06-02 | 2017-09-22 | 河海大学 | 一种面向词和组合词的垃圾短信文本特征选择方法 |
CN108629413A (zh) * | 2017-03-15 | 2018-10-09 | 阿里巴巴集团控股有限公司 | 神经网络模型训练、交易行为风险识别方法及装置 |
CN109145959A (zh) * | 2018-07-27 | 2019-01-04 | 东软集团股份有限公司 | 一种特征选择方法、装置及设备 |
CN109409426A (zh) * | 2018-10-23 | 2019-03-01 | 冶金自动化研究设计院 | 一种极值梯度提升逻辑回归分类预测方法 |
-
2019
- 2019-04-30 CN CN201910365319.7A patent/CN110232400A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108629413A (zh) * | 2017-03-15 | 2018-10-09 | 阿里巴巴集团控股有限公司 | 神经网络模型训练、交易行为风险识别方法及装置 |
CN107193804A (zh) * | 2017-06-02 | 2017-09-22 | 河海大学 | 一种面向词和组合词的垃圾短信文本特征选择方法 |
CN109145959A (zh) * | 2018-07-27 | 2019-01-04 | 东软集团股份有限公司 | 一种特征选择方法、装置及设备 |
CN109409426A (zh) * | 2018-10-23 | 2019-03-01 | 冶金自动化研究设计院 | 一种极值梯度提升逻辑回归分类预测方法 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111522743B (zh) * | 2020-04-17 | 2021-10-22 | 北京理工大学 | 一种基于梯度提升树支持向量机的软件缺陷预测方法 |
CN111522743A (zh) * | 2020-04-17 | 2020-08-11 | 北京理工大学 | 一种基于梯度提升树支持向量机的软件缺陷预测方法 |
CN111583031A (zh) * | 2020-05-15 | 2020-08-25 | 上海海事大学 | 一种基于集成学习的申请评分卡模型建立方法 |
CN112382382A (zh) * | 2020-10-23 | 2021-02-19 | 北京科技大学 | 一种代价敏感的集成学习分类方法及系统 |
CN112382382B (zh) * | 2020-10-23 | 2024-04-12 | 北京科技大学 | 一种代价敏感的集成学习分类方法及系统 |
CN112884215A (zh) * | 2021-02-02 | 2021-06-01 | 国网甘肃省电力公司信息通信公司 | 一种基于梯度增强树人口预测模型的参数优化方法 |
CN113159447A (zh) * | 2021-05-12 | 2021-07-23 | 中国人民解放军陆军工程大学 | 一种激光雷达电磁环境效应预测方法及系统 |
CN113296947A (zh) * | 2021-05-24 | 2021-08-24 | 中山大学 | 基于改进XGBoost模型的资源需求预测方法 |
CN114169612A (zh) * | 2021-12-09 | 2022-03-11 | 浙江百世技术有限公司 | 基于梯度提升决策树和神经网络的货量预测方法及系统 |
CN115964483B (zh) * | 2022-07-20 | 2024-04-05 | 东南大学 | 基于神经网络的高速公路养护大数据分类决策方法 |
CN115964483A (zh) * | 2022-07-20 | 2023-04-14 | 东南大学 | 基于神经网络的高速公路养护大数据分类决策方法 |
CN115553777A (zh) * | 2022-11-02 | 2023-01-03 | 济南大学 | 一种非接触式精神压力检测方法及系统 |
CN115664910A (zh) * | 2022-11-14 | 2023-01-31 | 西安睿奥电磁环境科技有限公司 | 基于Resnet-LSTM的信号调制分类方法与系统 |
CN116417070A (zh) * | 2023-04-17 | 2023-07-11 | 齐鲁工业大学(山东省科学院) | 一种基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法 |
CN116651306A (zh) * | 2023-08-01 | 2023-08-29 | 山西中科冶金建设有限公司 | 一种智能焦煤配比系统 |
CN116651306B (zh) * | 2023-08-01 | 2023-10-03 | 山西中科冶金建设有限公司 | 一种智能焦煤配比系统 |
CN117289141A (zh) * | 2023-11-22 | 2023-12-26 | 深圳市麦迪瑞科技有限公司 | 基于人工智能的电动自行车充电状态监测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110232400A (zh) | 一种梯度提升决策神经网络分类预测方法 | |
Potdar et al. | A comparative study of categorical variable encoding techniques for neural network classifiers | |
US11636343B2 (en) | Systems and methods for neural network pruning with accuracy preservation | |
CN110163261A (zh) | 不平衡数据分类模型训练方法、装置、设备及存储介质 | |
Kumar et al. | A benchmark to select data mining based classification algorithms for business intelligence and decision support systems | |
US20090089228A1 (en) | Generalized reduced error logistic regression method | |
CN110472053A (zh) | 一种面向公共资源招投标公告数据的自动分类方法及其系统 | |
CN109583782B (zh) | 支持多数据源的汽车金融风控方法 | |
CN107633455A (zh) | 基于数据模型的信用评估方法及装置 | |
CN101546290B (zh) | 提高面向对象型软件中类阶层质量预测准确度的方法 | |
CN111340236B (zh) | 一种基于债券估值数据与集成机器学习的债券违约预测方法 | |
CN109409426A (zh) | 一种极值梯度提升逻辑回归分类预测方法 | |
Wang et al. | The criticality of spare parts evaluating model using artificial neural network approach | |
CN113159419A (zh) | 一种群体特征画像分析方法、装置、设备及可读存储介质 | |
Khatibi et al. | A new fuzzy clustering based method to increase the accuracy of software development effort estimation | |
Wongkhamdi et al. | A comparison of classical discriminant analysis and artificial neural networks in predicting student graduation outcomes | |
CN116306785A (zh) | 一种基于注意力机制的卷积长短期网络的学生成绩预测方法 | |
CN115641153A (zh) | 一种基于深度神经网络的车辆价格评估方法 | |
Saeed et al. | A decision support system approach for accreditation & quality assurance council at higher education institutions in Yemen | |
Faghri et al. | Artificial neural network–based approach to modeling trip production | |
CN103198357A (zh) | 基于nsga-ⅱ优化改进的模糊分类模型构造方法 | |
Kurniasari et al. | Forecasting The Value of Indonesian Oil-Non-Oil and Gas Imported Using The Gated Recurrent Unit (GRU) | |
Dahiya et al. | Credit modelling using hybrid machine learning technique | |
Zhang et al. | Method of highway risk assessment and accident quantity prediction based on multi-source heterogeneous data and deep neural network | |
Hadiyat et al. | Comparing statistical feature and artificial neural networks for control chart pattern recognition: a case study |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190913 |